versão On-line ISSN 2317-6431
Audiol., Commun. Res. vol.20 no.2 São Paulo abr./jun. 2015
http://dx.doi.org/10.1590/S2317-64312015000200001419
A partir da década de 50 houve avanço nos estudos da área de voz, com o surgimento de teorias enfocando a produção vocal e o desenvolvimento de laboratórios de voz com propósito de criar técnicas confiáveis e objetivas que pudessem contribuir com a avaliação dos distúrbios vocais(1). A análise vocal acústica atual faz uso de programas computadorizados que possibilitam mensurar vários aspectos do sinal de voz captado(2). No Brasil, esta avaliação passou a ser mais utilizada nas últimas décadas(3) e os estudos recentes são mais abrangentes.
A análise acústica oferece ao fonoaudiólogo dados relevantes, sendo uma importante ferramenta no controle da evolução da fonoterapia, além de possibilitar o registro das condições vocais nos momentos pré-operatório e pós-operatório de cirurgias laríngeas(4-6). Por meio dela obtém-se diversos parâmetros específicos que auxiliam na compreensão do mecanismo da fonação e dos diferentes distúrbios vocais, além de ser possível a visualização gráfica de aspectos do som produzido(7). A análise multivariada dos dados vocais acústicos tem garantido maior fidedignidade a esta avaliação(8) e a classificação em tipos de sinal espectrográfico tem se mostrado relevante, principalmente para vozes mais alteradas, em que os parâmetros objetivos, como frequência fundamental e índices de perturbação e ruído, são menos confiáveis(9).
Apesar das vantagens, a análise acústica não tem função diagnóstica, sendo parte da avaliação vocal, juntamente com os achados dos exames fisiológicos realizados pelo médico e da análise perceptivo-auditiva da voz(7).
A avaliação acústica proporciona dados visuais interessantes, que podem ser discutidos com o paciente para facilitar o feedback sobre a evolução do tratamento(10). A diferença entre as medidas de amplitude dos dois primeiros harmônicos (H1-H2) também tem sido estudada de maneira correlacionada às características vocais, fornecendo novas possibilidades de análise(11). A combinação entre a avaliação perceptivo-auditiva e a acústica facilita a identificação dos desvios na qualidade vocal e propicia dados que fundamentarão a escolha quanto ao tipo de terapia e exercícios vocais a serem propostos(10).
A análise acústica da voz fornece dados normativos para diferentes realidades vocais, ainda que a quantidade de informações a ser extraída seja pouco conhecida e explorada(12). Os parâmetros mais utilizados são as medidas objetivas, como frequência fundamental e os índices de perturbação jitter eshimmer(13), além das medidas de ruído(14) e os aspectos provenientes da espectrografia, como presença de ruído em frequências elevadas, instabilidade e quebras de sonoridade(15). A espectrografia possibilita o monitoramento visual das características vocais por meio de sua tridimensionalidade (frequência/intensidade/tempo)(5,16).
Ainda que a principal habilidade envolvida na análise espectrográfica seja a visual, é desejado que, durante o treino para este tipo de avaliação, esta seja trabalhada em conjunto com a habilidade auditiva, para que se obtenha melhor aprendizado, uma vez que alguns aspectos passarão a ser melhor percebidos visualmente, na medida em que sejam detectados auditivamente e vice-versa. O apoio visual do espectrograma pode auxiliar a avaliação perceptivo-auditiva da qualidade vocal(13,17). Como a análise vocal espectrográfica depende de interpretação do avaliador, ou seja, é um método subjetivo de avaliação, a confiabilidade pode ser aumentada quando o treinamento envolver mais de uma habilidade(16,18).
O treino para análise acústica focado na espectrografia se mostrou relevante em estudo com 20 alunos de graduação em Fonoaudiologia(16). Este treino teve a duração total de quatro horas e os resultados indicaram melhora na interpretação visual de espectrogramas.
Para realização da análise vocal acústica com efetividade é necessário que o avaliador tenha experiência e conhecimento a respeito dos programas específicos, recursos de gravação, estruturação do banco de dados e análise dos resultados sob a forma de gráfico, além de conhecimento sobre os parâmetros de referência. Por isso, é necessária formação que potencialize a capacidade do avaliador para esse tipo de análise. A multidimensionalidade da voz deve ser explorada na formação do futuro fonoaudiólogo, com abordagem integrada de sinais, considerando o necessário aperfeiçoamento de ferramentas didáticas.
Cada vez mais destaca-se a importância de se investir nas habilidades teórico/práticas dos alunos-terapeutas, para que tenham uma formação mais completa e desenvolvam habilidades específicas que permitam atender adequadamente às necessidades dos indivíduos disfônicos(19,20).
Esta pesquisa teve como objetivo verificar a efetividade de treino em avaliação acústica da voz para graduandos de Fonoaudiologia.
Trata-se de estudo longitudinal, aprovado por Comitê de Ética em Pesquisa da Faculdade de Medicina da Universidade de São Paulo (USP) (protocolo 294/11).
Foram incluídos graduandos do 2º ano do Curso de Fonoaudiologia, sem experiência prévia em análise vocal acústica. O critério de exclusão foi: ausência em qualquer um dos encontros previstos.
A amostra foi composta por 14 alunos (12 mulheres e dois homens), com idades entre 19 e 24 anos e sem queixas auditivas. Os procedimentos da pesquisa tiveram início após assinatura do Termo de Consentimento Livre e Esclarecido.
O programa de treinamento em avaliação vocal acústica teve duração de seis encontros semanais, num total de quatro horas e meia, divididos em três etapas: Etapa 1, em que foram apresentadas as definições, treinados os parâmetros e realizada a avaliação da amostra de registros vocais (encontro 1); Etapa 2, onde a proposta foi o reforço conceitual de cada um dos parâmetros, separadamente (encontros 2, 3, 4 e 5); Etapa 3, em que se efetivou a revisão geral de todos os parâmetros acústicos e foi realizada a reavaliação da amostra dos registros vocais (encontro 6).
Etapa 1: no primeiro encontro, com duração de uma hora e meia, foram abordados os seguintes parâmetros da análise vocal acústica: medidas de extração automática – frequência fundamental, jitter, shimmer e proporção harmônico-ruído; análise espectrográfica de banda estreita – forma do traçado espectrográfico, grau de escurecimento dos harmônicos, estabilidade do traçado, ruído nas frequências agudas, ruído nas frequências graves, presença de sub-harmônicos/bifurcações, quebras de frequência, quebras de sonoridade, análise da série de harmônicos e definição de harmônicos. Cada aspecto foi abordado, inicialmente, por sua definição e, em seguida, foram exibidos exemplos de espectrogramas de banda estreita em versão colorida, para facilitar a leitura. Foram destacados os aspectos visuais presentes nos traçados, ao mesmo tempo em que os estímulos auditivos eram apresentados para o treinamento do respectivo parâmetro. A duração da exposição de cada estímulo sonoro foi de três a cinco segundos e, em média, os alunos solicitaram três repetições de cada voz.
Cada parâmetro alterado/presente foi exibido em oposição a um espectro em que o mesmo estava normal/ausente. Nas Figuras 1 e 2 observa-se um exemplo da apresentação dos sub-harmônicos.
A mesma dinâmica de treinamento foi realizada para o treino das medidas de extração automática. Foram exibidos os valores das medidas, enquanto as características relacionadas eram identificadas no espectrograma. Como exemplo, no treino para análise da frequência fundamental (f0), foram apresentados definição e dados normativos relativos ao gênero e à idade e, então, exibidos espectrogramas variados, nos quais as características dos harmônicos em cada faixa de frequência eram apontadas, enquanto os alunos ouviam as vozes. Em relação às demais medidas de extração automática – jitter, shimmer e PHR –, foram discutidos os parâmetros de normalidade e seu significado e apresentados espectrogramas de vozes junto com as informações sobre os diferentes valores, para comparação com vozes normais.
Os parâmetros para análise espectrográfica seguiram as definições operacionais(15,21), considerando-se todo o traçado e não apenas a f0, a saber:
- Instabilidade: flutuação excessiva na frequência; quebras de frequência: alterações abruptas da frequência; quebras de sonoridade: interrupções e/ou ausência abruptas na frequência; sub-harmônicos/bifurcação de frequência: presença de uma ou mais linhas entre os harmônicos; ruído nas frequências agudas: hachuramento em frequências acima de 4 Khz/5 Khz; ruído nas frequências graves: hachuramento em frequências abaixo de 2 Khz; série de harmônicos: número suficiente de harmônicos para definição da qualidade vocal (mínimo 20 harmônicos).
Para análise dos parâmetros definidos nesta pesquisa, utilizou-se uma adaptação de protocolo específico(15). Neste protocolo utiliza-se uma escala analógico-visual de 100 mm, em que 0 (zero) indica ausência e 100 a presença máxima de cada um dos parâmetros, exceto para a análise da quebra de frequência e quebra de sonoridade, em que são consideradas presença e ausência. Para esta pesquisa, considerou-se apenas a presença ou ausência de cada parâmetro, mais compatível com o nível de exigência esperado para graduandos.
Ao final da apresentação de todos os aspectos, nesse mesmo encontro, foi proposto que os alunos fizessem a avaliação de uma amostra de dez vozes. Para cada voz, foi apresentado um slide com um espectrograma e o áudio onde apareciam indicadas, logo abaixo do espectro, medidas de extração automática (valores de f0,jitter, shimmer e proporção harmônico-ruído) que poderiam ser as corretas ou não. Os alunos escutavam a voz, enquanto observavam o espectro e os valores das medidas automáticas e eram, então, convidados a anotar, por escrito e individualmente, em protocolo específico, a presença ou ausência da característica que era solicitada (por exemplo: “indiquem se há quebra de sonoridade”), ou se os valores das medidas automáticas estavam compatíveis com a voz, justificando (por exemplo: “o valor da f0 indicada está compatível com opitch que estão escutando? Por quê?”). Conectado ao Datashow estava um computador portátil notebook HP Pavilion dv6000, com o Processador Intel® Core™2 Duo T7250 (2 GHz, 2 MB L2 cache, 800 MHz FSB), 260 MB de memória de RAM, com placa de som Realtek High Definition Audio. Optou-se pelo uso de caixas de som externas, para melhor qualidade de apresentação dos estímulos sonoros.
Para extração das medidas automáticas foi utilizado o programa Praat (criado por Paul Boersma e David Weenink, Universidade de Amsterdã, uso livre, http://www.fon.hum.uva.nl/praat/) e para elaboração dos espectrogramas, o Spectrogram, versão 16 (criado por Richard Horne, Visualization Software LLC, uso livre, http:/www.eletronics-lab.com/downloads/pc/003/).
A amostra avaliada pelos alunos foi composta por nove vozes de indivíduos com diagnósticos laringológicos variados e de um com a voz sem alterações; cinco amostras foram repetidas para possibilitar a avaliação intrajuiz. As gravações foram selecionadas do banco de vozes da instituição, sob responsabilidade de uma das autoras. Todos os pacientes selecionados passaram pelos procedimentos de rotina para registro vocal, em ambiente acusticamente tratado e com ruído inferior a 50 dB, a saber: computador de mesa, programa Audacity, placa de som externa USB 5.1 3D (Interface Edirol UA-101 Hi-Speed USB Audio Capture), amplificador interno digital Class B da marca 3D Sound e microfone headset, unidirecional e condensado, da marca Karsect, modelo HT-2; microfone posicionado a uma distância de 3 a 5 cm da boca do paciente, em eixo de 45° a 90º. Foram realizados testes para ajuste do ganho da voz, com objetivo de evitar cortes de picos ou sons muito fracos. As amostras foram gravadas na faixa de frequência de 22.050 Hz.
Etapa 2: após o primeiro encontro inicial, ocorreram quatro encontros semanais, com duração de meia hora cada, nos quais foram retomados, de maneira detalhada, todos os parâmetros acústicos abordados e avaliados no primeiro encontro; foram usados novos exemplos para treino visual e auditivo, com cerca de três vozes apresentadas para cada item discutido.
Etapa 3: no sexto e último encontro foi incluída a revisão geral de todos os parâmetros acústicos trabalhados e, em seguida, os alunos repetiram a avaliação das vozes da amostra inicial, seguindo os mesmos procedimentos descritos. A ordem de apresentação das vozes, nesse segundo momento, foi modificada de forma aleatória em relação à primeira avaliação. É importante destacar que nenhuma das vozes da amostra de avaliação foi utilizada durante os encontros do treino.
As avaliações realizadas pelos alunos nos dois momentos foram comparadas à avaliação previamente realizada por meio da escala GRBAS(22), por três juízas fonoaudiólogas, especialistas em voz e com larga experiência no uso da referida escala. Todas as juízas participantes apresentaram índice Kappa acima de 0,70 na análise intrajuiz. Uma das avaliadoras também foi responsável pela extração das medidas automáticas utilizando osoftware Praat, bem como pela análise dos dados espectrográficos. Essa análise comparativa permitiu que as respostas dos alunos fossem classificadas em acertos ou erros e permitiu a comparação de desempenho em ambos os momentos, por meio da aplicação do teste McNemar, adotando-se nível de significância de 5%.
Os critérios adotados para seleção das vozes foram: diagnósticos laríngeos diversos e gradações variadas de alteração na qualidade vocal. Todos os registros vocais apresentavam, em destaque, um ou mais parâmetros de interesse trabalhados no treinamento (Quadro 1).
Quadro 1 Caracterização da amostra de vozes selecionadas para avaliação acústica
Indivíduos | G | R | B | A | S | Diagnóstico Otorrinolaringológico |
---|---|---|---|---|---|---|
1 | 3 | 2 | 3 | 1 | 0 | Trauma traqueal |
2 | 3 | 3 | 1 | 0 | 0 | Recidiva de edema de Reinke |
3 | 2 | 2 | 1 | 0 | 1 | Edema de Reinke |
4 | 3 | 3 | 1 | 0 | 1 | Edema de Reinke |
5 | 2 | 2 | 1 | 0 | 1 | Doença de Parkinson |
6 | 2 | 2 | 2 | 0 | 1 | Papiloma laríngeo |
7 | 0 | 0 | 0 | 0 | 0 | Normal |
8 | 3 | 3 | 2 | 1 | 0 | Paralisia de prega vocal direita |
9 | 3 | 3 | 1 | 0 | 2 | Estenose laríngea com sinéquia |
10 | 2 | 2 | 1 | 0 | 0 | Presbifonia |
Legenda: GRBAS = G, grau geral; R, rugosidade; B, soprosidade; A, astenia; S, tensão
Resumo do programa completo do treinamento:
Etapa 1: 1º encontro – conceitos básicos para avaliação vocal acústica, seguidos de avaliação individual da amostra de 15 vozes (Momento 1); duração de uma hora e meia.
Etapa 2: 2º encontro – teoria e prática para análise da forma do traçado espectrográfico, grau de escurecimento dos harmônicos e estabilidade do traçado; duração de meia hora; 3º encontro – teoria e prática para análise da presença de ruído, sub-harmônicos/bifurcações e quebras de frequências; duração de meia hora. 4º encontro – teoria e prática para análise das quebras de sonoridade, série de harmônicos e definição dos harmônicos; duração de meia hora; 5º encontro – teoria e prática para análise da frequência fundamental e da medida de perturbaçãojitter; duração de meia hora.
Etapa 3: 6º encontro – teoria e prática para análise da medida de perturbaçãoshimmer e da medida de ruído proporção harmônico-ruído, seguidas de breve revisão teórico-prática de todos os conceitos e parâmetros trabalhados nos encontros; após, os participantes reavaliaram, individualmente, as mesmas 15 vozes da avaliação inicial, com os mesmos procedimentos (Momento 2); duração de uma hora.
No Momento 1, observou-se elevados índices de acertos para frequência fundamental (55,0%), estabilidade do traçado (47,1%) e forma do traçado (42,1%). Os menores índices foram quanto à definição dos harmônicos (2,0%), ruído nas frequências agudas (3,6%) e quebras de frequência (11,4%). A média geral de acertos foi 24,2% (Tabela 1).
Tabela 1 Comparação entre as médias dos acertos nos dois momentos de avaliação
Aspectos analisados | Momento 1 |
Momento 2 |
Valor de p | ||
---|---|---|---|---|---|
n | % | n | % | ||
Frequência fundamental | 77 | 55,0 | 137 | 97,9 | <0,001* |
Jitter | 39 | 27,9 | 139 | 99,3 | <0,001* |
Shimmer | 41 | 29,3 | 134 | 95,7 | <0,001* |
Proporção harmônico-ruído | 39 | 27,9 | 136 | 97,1 | <0,001* |
Forma do traçado | 59 | 42,1 | 128 | 91,4 | <0,001* |
Grau de escurecimento dos harmônicos | 32 | 22,9 | 127 | 90,7 | <0,001* |
Estabilidade do traçado | 66 | 47,1 | 136 | 97,1 | <0,001* |
Ruído frequências agudas | 5 | 3,6 | 128 | 91,4 | <0,001* |
Ruído frequências graves | 21 | 15,0 | 133 | 95,0 | <0,001* |
Sub-harmônicos/bifurcações | 30 | 21,4 | 116 | 82,9 | <0,001* |
Quebras de frequência | 16 | 11,4 | 129 | 92,1 | <0,001* |
Quebras de sonoridade | 25 | 17,9 | 127 | 90,7 | <0,001* |
Série de harmônicos | 22 | 15,7 | 135 | 96,4 | <0,001* |
Definição dos harmônicos | 2 | 2,0 | 83 | 84,7 | <0,001* |
Média geral | 33,9 | 24,2 | 127,7 | 93,0 | <0,001* |
*Valores significativos (p≤0,05) – Teste de McNemar
No Momento 2, todos os índices de acerto foram bastante elevados, com destaque para a análise do jitter (99,3%) e da frequência fundamental (97,9%); a menor média obtida foi quanto à presença de sub-harmônicos/bifurcações (82,9%). A média de acertos foi 93,0% (Tabela 1).
A comparação do desempenho dos alunos indicou que houve maior índice de acertos no Momento 2, em relação ao Momento 1, em todos os aspectos analisados (p<0,001) e também na média geral de acertos (p<0,001). As maiores diferenças pré-treino e pós-treino foram observadas na avaliação do ruído nas frequências agudas, ruído nas frequências graves, quebras de frequência, série de harmônicos e definição dos harmônicos (Tabela 1).
A análise acústica é considerada importante ferramenta complementar para a avaliação vocal e é necessário que haja conhecimento teórico/prático para que seja utilizada na clínica fonoaudiológica(1,20,23). Portanto, para obter resultados eficazes é imprescindível que o profissional desenvolva habilidades específicas(20).
Essa consideração foi confirmada neste estudo, uma vez que se observou que, apenas com a aula inicial em que os aspectos foram conceituados e exemplificados de maneira mais geral, os alunos puderam apresentar rendimento que variou entre fraco e regular e, somente após o treino, efetivamente passaram a realizar uma análise acústica consistente, com elevada média geral de acertos.
Ressalta-se que os alunos que participaram do presente estudo não tinham vivências prévias em análise acústica, mas, no semestre anterior, haviam participado de treino em análise perceptivo-auditiva da voz, que foi considerado efetivo(24).
A partir do treinamento citado, os graduandos foram levados a melhorar sua percepção para a multidimensionalidade da voz e, o conhecimento prévio em análise perceptivo-auditiva, pode tê-los despertado para a compreensão de que o sinal acústico valida o sinal perceptivo-auditivo e vice-versa e permite a integração das esferas fisiológicas e perceptivo-auditivas(25).
O fato de terem apresentado certa facilidade para avaliar a frequência fundamental, estabilidade e forma do traçado espectrográfico apenas com os conceitos advindos da aula básica poderia ser justificado pelo fato de que são parâmetros mais simples. Estudo que envolveu a inspeção visual do traçado espectrográfico também observou essa facilidade dos graduandos em analisar a forma do traçado(16), o que pode indicar que a aprendizagem deste parâmetro independe do treino agregar análise visual e auditiva.
Por outro lado, a dificuldade inicial para identificar a presença de ruído nas frequências agudas e graves e as quebras de frequência pode indicar que estes aspectos necessitam de maior treino para serem percebidos de maneira adequada. Em estudo onde foi proposta a inspeção apenas visual do traçado espectrográfico, os alunos tiveram facilidade para avaliar a presença de ruído apenas com uma breve explicação, mas houve piora na avaliação deste aspecto, após o treino(16), o que comprova se tratar de um parâmetro mais complexo. Além disso, a análise que conjuga aspectos auditivos e visuais pode confundir um pouco os alunos, no início, provavelmente devido à maior quantidade de informações, mas essa dificuldade pode ser superada com o treino, como foi observado na presente pesquisa. Para juízes experientes, o fato de se associar aspectos perceptivo-auditivos e acústicos melhora a confiabilidade da análise(18).
A melhora na análise da definição de harmônicos observada nesta pesquisa pode indicar que a integração perceptivo-auditivo-visual beneficia os alunos, uma vez que um estudo apenas com apoio visual observou dificuldade dos graduandos em relação a esse parâmetro(16). A maneira mais direta na análise das medidas automáticas – jitter,shimmer e PHR – proporcionou elevado índice de acertos por parte dos alunos, após o treinamento. Esse resultado era esperado pelo fato de que é mais objetivo e simples verificar o valor apresentado pelo programa e compará-lo aos dados de normalidade, ainda que na Etapa 1 os alunos tenham se mostrado confusos devido à definição mais complexa desses itens. A necessidade da compreensão das medidas de curto prazo destaca-se pelo fato de que tanto as medidas de perturbação –jitter e shimmer – quanto as medidas de ruído, são consideradas fortes preditoras de problemas vocais(26).
Como a análise acústica, em geral, agrega características subjetivas relativas à interpretação dos dados pelo avaliador(16), não seria esperado que os índices alcançados pelos graduandos para todos os itens no momento pós-treino fossem de 100%. Os índices foram considerados excelentes e confirmaram a efetividade do treinamento.
Avaliou-se como adequada a sistematização em vários encontros para a apropriação do conhecimento e ampliação da gama de conceitos apresentados e adquiridos. A possibilidade de retomada dos conteúdos, a cada novo encontro, permitiu tempo para reflexão e apresentação de dúvidas e observações extra-treinos, o que pôde favorecer a absorção e sedimentação do conhecimento. Acredita-se que esse aprendizado contribuiu para a habilidade desses alunos em realizar uma avaliação vocal mais completa, uma vez que haviam passado por treino perceptivo-auditivo(24) e agora agregam o conhecimento em acústica. O próximo desafio será a integração entre os sinais perceptivo-auditivos, acústicos e a fisiologia dos distúrbios da voz envolvidos. Pretende-se, também, a partir deste estudo, disponibilizar o material didático utilizado.
Ressalta-se, ainda, o limitado número de estudos sobre o tema e sua relevância na formação do fonoaudiólogo. Esta pesquisa aponta para a necessidade de reflexão permanente sobre as práticas didáticas e a aprendizagem do aluno, especialmente em temas complexos, como a avaliação da voz. A disponibilização de material didático a partir de experiências bem sucedidas deve ser valorizada e sua divulgação em eventos da área permitirá que outros grupos tenham acesso à mesma metodologia, viabilizando pesquisas interinstitucionais.