versão On-line ISSN 2317-1782
CoDAS vol.25 no.6 São Paulo 2013
http://dx.doi.org/10.1590/S2317-17822014000100010
Na clínica fonoaudiológica as técnicas vocais são utilizadas para o aperfeiçoamento vocal ou tratamento de distúrbios vocais. Desta forma, a fonoterapia visa a uma emissão saudável e à prevenção de fonotraumas durante a produção de voz( 1 , 2 ). Nos últimos anos pesquisadores têm dedicado esforços para comprovar os efeitos fisiológicos que os exercícios vocais promovem na qualidade vocal e em pregas vocais de indivíduos saudáveis ou com disfonia( 3 , 4 ).
Das técnicas terapêuticas desenvolvidas ao longo da história, duas têm atraído a atenção dos pesquisadores. A primeira delas é a vibração sonorizada, por ser a mais usada na maioria dos distúrbios vocais( 5 , 6 ), e também por seus efeitos serem facilmente percebidos pelo ouvido do clínico e do paciente( 2 , 5 ). A outra é o som basal, apresentando diversas indicações terapêuticas, mas ainda pouco utilizada por apresentar inúmeras divergências entre pesquisadores e fonoaudiólogos( 4 , 7 , 8 ).
É fundamental que o desempenho de técnicas vocais possa ser medido para a comprovação de seus reais efeitos em pregas vocais e na qualidade vocal de indivíduos saudáveis ou disfônicos. Neste sentido, os métodos de avaliação permitem descrever as características fisiológicas da voz nos diversos tipos de produção vocal( 9 ). A análise acústica contribui com dados que podem ser quantitativos ou qualitativos. Os parâmetros Jitter e Shimmer, embora não sejam robustos para avaliar vozes muito desviadas, têm sido amplamente utilizados em estudos nos quais os sujeitos contribuem com dados experimentais e de controle ao mesmo tempo( 10 ). Outra forma de análise da voz é a avaliação de imagens laríngeas. A mais recente técnica de filmagem em alta velocidade possibilita revelar o real ciclo das pregas vocais. A partir dos quadros destas imagens é possível gerar quimografias para a extração de parâmetros objetivos e analisar comportamento vibratório das pregas vocais de forma mais detalhada( 11 ).
Ampliar os conhecimentos dos efeitos de técnicas vocais é uma necessidade atual da clínica fonoaudiológica. Assim, o objetivo deste estudo é identificar os efeitos imediatos das vibrações sonorizadas e do som basal em indivíduos saudáveis por meio de parâmetros acústicos de perturbação e de quimografia obtidas de videolaringoscopias de alta velocidade.
Esta pesquisa foi aprovada pelo Comitê de Ética em Pesquisa da Universidade Federal de São Carlos. Todos os participantes foram informados, por meio de material escrito, sobre os objetivos do trabalho e assinaram o Termo de Consentimento Livre e Esclarecido.
A coleta de dados foi realizada no ambulatório do Grupo de Voz da Divisão de Clínica Otorrinolaringológica do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo. Os participantes passaram por triagem fonoaudiológica, na qual cada um respondeu a uma anamnese, que investigou os hábitos vocais, e foi submetido a uma avaliação perceptivo-auditiva, realizada de acordo com os conceitos da escala analógica-visual( 12 ) por uma fonoaudióloga experiente. Foi avaliado o grau global da voz emitida em fala encadeada, sendo o intervalo entre 0,0 a 34,5 mm( 12 ), considerado variabilidade normal da qualidade vocal para a amostra do estudo. Com isso, foram avaliados 44 sujeitos no período de setembro de 2010 a novembro de 2011. Destes, nove foram excluídos por falharem na triagem fonoaudiológica e cinco por apresentarem alterações ao exame laríngeo (dois com sinais de refluxo gastroesofágico, dois com presença de pequenos nódulos e um com microdiafragma laríngeo). Estes participantes foram orientados quanto a sua saúde vocal e à busca por avaliação e tratamento adequado.
Os indivíduos incluídos no estudo foram os que não apresentaram histórico de tabagismo e alcoolismo, e que estavam livres de alterações digestivas e hormonais e de processos inflamatórios das vias aéreas. A coleta selecionou 30 indivíduos (12 homens e 18 mulheres), com idade entre 19 e 45 anos, em bom estado de saúde geral. Foram realizados registros de gravação de voz e videolaringoscopias de alta velocidade em dois momentos, antes e depois dos exercícios vocais. Para o processamento e a análise dos sinais acústicos e de imagens laríngeas utilizaram-se algoritmos desenvolvidos pelo Grupo de Pesquisa em Engenharia Médica (GPEM/Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq).
Na coleta de voz, a gravação acústica utilizou os seguintes equipamentos: notebook com processador Intel Dual-Core T4400 2,2 GHz, acoplado a uma placa de som externa USB e a um microfone unidirecional de sensibilidade mínima de 44 dB e frequência de resposta de 60 a 12 kHz. A coleta foi realizada em uma sala acusticamente tratada, com o microfone posicionado à distância de 4 cm da boca, formando com esta um ângulo de 45 a 90º( 13 ).
Os sinais de voz foram armazenados no formato .wav, com taxa de 44.100 amostras por segundo. As videolaringoscopias de alta velocidade foram realizadas por um laringologista e foi usado o sistema de gravação de imagens em alta velocidade da marca Richard Wolf (Knittlingen, Alemanha), com fonte de luz de alta execução (AUTO LP 5132), laringoscópio rígido (ângulo de 90º) e câmara de cabeça (HRES ENDOCAM 5562). Os exames foram armazenados a uma taxa de 4 mil quadros por segundo e convertidos à extensão de arquivo .AVI para o processamento das imagens.
Os parâmetros investigados foram isolados por meio do controle de emissão da intensidade e frequência. O procedimento foi realizado antes e depois dos exercícios vocais com o intuito de promover as mesmas condições de vibração às pregas vocais e emissões. Com isso, foi possível eliminar influências destas variáveis nos parâmetros acústicos e nas videolaringoscopias( 10 ). A intensidade e frequência confortáveis de emissão de cada sujeito foram extraídas durante a primeira gravação acústica da vogal sustentada /ε/. No caso da intensidade, contou com um medidor de nível de pressão sonora da marca RadioShack (33-2055, New York, Estados Unidos), colocado a 30 cm da comissura labial. A frequência fundamental foi extraída utilizando o teclado virtual do software SpeechPitch.
Para a emissão da mesma intensidade nas demais etapas da coleta, cada sujeito foi orientado a reproduzir a vogal sustentada /ε/ de acordo com orientações da fonoaudióloga responsável por esta pesquisa. A intensidade foi controlada com o medidor de pressão sonora utilizado na etapa de extração deste dado. Foi aceita variação máxima de 2 dB durante as demais emissões, e para a reprodução da frequência fundamental nas etapas seguintes da coleta, cada participante foi orientado a emitir a vogal sustentada /ε/ seguindo orientações da fonoaudióloga. Esta apresentou apoio auditivo e visual com o mesmo teclado virtual utilizado na etapa de extração do dado.
Já para a gravação acústica realizada antes dos exercícios vocais, cada sujeito permaneceu sentado, com postura ereta da coluna vertebral, e emitiu uma vogal sustentada /ε/ em frequência e intensidade confortáveis. Em seguida, foi realizada a videolaringoscopia de alta velocidade.
Os sujeitos receberam anestesia tópica antes do exame e o laringoscópio rígido foi introduzido à boca do participante enquanto o mesmo emitia a vogal sustentada /ε/ em intensidade e frequência controladas, conforme descrito anteriormente. No passo seguinte, uma fonoaudióloga especialista em voz orientou os sujeitos na realização dos exercícios vocais. Após os exercícios vocais foi realizada a gravação de voz e o exame de videolaringoscopia em alta velocidade, respectivamente. Estes registros seguiram o mesmo protocolo descrito para o momento pré-exercício vocal.
Os exames laringológicos foram realizados pelo mesmo laringologista, médico colaborador desta pesquisa, e a posição do endoscópio rígido foi controlada durante os exames( 14 ). O endoscópio rígido foi colocado paralelamente sobre as pregas vocais, respeitando o mesmo ângulo e distância utilizados no momento pré-execícios vocais.
Os 30 participantes foram aleatoriamente divididos em dois grupos experimentais. Como os exercícios de vibração de lábio ou língua apresentaram impactos semelhantes na voz( 2 ) foi solicitado para 15 indivíduos (seis homens e nove mulheres) que realizassem as vibrações sonorizadas que apresentassem melhor habilidade para executar com emissão simultânea de voz, ao longo de seu tempo máximo de fonação( 6 ).
De acordo com o recomendado por Menezes et al.( 15 ), as vibrações sonorizadas foram exercitadas por sujeitos do gênero masculino durante cinco minutos, em média, 20 vibrações, e sujeitos do gênero feminino exercitaram por três minutos, em média, dez vibrações. Outros 15 indivíduos (seis homens e nove mulheres) foram instruídos a realizarem o som basal ao longo de seu tempo máximo de fonação. Com o intuito de evitar a fadiga muscular, devido à forte contração do músculo tireoaritenoideo, cada sujeito exercitou o som basal por um minuto, independente do gênero. Foi realizada, em média, quatro vezes a emissão do som basal.
As gravações acústicas pré e pós-exercícios vocais foram processadas empregando um algoritmo desenvolvido por meio da linguagem de programação C Sharp, a qual pertence ao pacote de programas Visual Studio, da Microsoft. O algoritmo inicia o procedimento de análise normalizando os sinais para a padronização dos níveis de amplitude. Em seguida, realiza a extração dos parâmetros de perturbação automaticamente.
A voz é um sinal quase periódico que apresenta perturbações nos ciclos glóticos ao longo da frequência (Jitter) e intensidade (Shimmer)( 16 ). Estes dois parâmetros têm sido descritos como medidas robustas das propriedades biomecânicas das pregas vocais em situações de avaliação vocal que compara resultados de intervenções terapêuticas( 10 ). Para este estudo, os algoritmos desenvolvidos para o cálculo dos valores de Jitter e Shimmer foram baseados nos propostos por Davis( 17 , 18 ). Seus valores de normalidade foram validados em 0,18% (desvio padrão de 0,1%) para Jitter e 1,08% (desvio padrão de 0,37%) para Shimmer ( 19 ).
As quimografias de alta velocidade são obtidas por meio da justaposição de uma sequência de quadros das imagens laríngeas( 20 , 21 ). Para gerá-las, as videolaringoscopias de alta velocidade foram convertidas em extensão de arquivo .AVI e processadas pelo software próprio do sistema de captura das imagens (HRES). Este permite selecionar um ponto para justapor os quadros de imagens laríngeas. As quimografias de alta velocidade foram obtidas do ponto na região medial da imagem laríngea para a justaposição dos quadros de imagens ao longo do tempo (Figura 1). O ponto médio foi escolhido devido às suas características de maior mobilidade das pregas vocais( 22 , 23 ). Para a análise das quimografias foi desenvolvido um algoritmo utilizando a linguagem de programação C Sharp do pacote de programas Visual Studio, da Microsoft, que extrai em milissegundos os parâmetros: fase fechada (FF); fase aberta (FA); fase de fechamento (Ff) e fase de abertura (Fa) (Figura 2).
Todos os dados foram tratados estatisticamente por meio do Teste t de Student pareado. Os dados que não passaram na normalidade ou homogeneidade foram tratados por meio do teste de Mann-Whitney, ambos com nível de significância de 0,05.
Os resultados do exercício de vibração sonorizada apresentaram mudanças significativas de Jitter para ambos os gêneros, porém no Shimmer as alterações aconteceram apenas no feminino (Tabela 1).
Parâmetros | Jitter (%) | Shimmer(%) | |||
---|---|---|---|---|---|
Pré | Pós | Pré | Pós | ||
M | 0,23 | 0,20 | 1,24 | 1,27 | |
Homens | DP | 0,06 | 0,05 | 0,50 | 0,41 |
Valor de p | 0,018* | 0,780 | |||
M | 0,32 | 0,27 | 1,24 | 1,01 | |
Mulheres | DP | 0,12 | 0,11 | 0,48 | 0,40 |
Valor de p | <0,01* | <0,01* |
*Valores com diferenças significativasTeste t de Student pareado, com nível de significância de 0,05
Legenda: M = valores médios
DP = desvio padrão
O grupo que realizou o exercício de som basal apresentou mudança significativamente para Jitter em vozes femininas. Não foram observadas diferenças estatísticas de Shimmer para ambos os gêneros (Tabela 2).
Parâmetros | Jitter (%) | Shimmer(%) | |||
---|---|---|---|---|---|
Pré | Pós | Pré | Pós | ||
M | 0,18 | 0,19 | 1,08 | 1,33 | |
Homens | DP | 0,06 | 0,05 | 0,38 | 0,56 |
Valor de p | 0,32 | 0,26 | |||
M | 0,20 | 0,16 | 1,23 | 1,46 | |
Mulheres | DP | 0,06 | 0,04 | 0,64 | 0,68 |
Valor de p | <0,01* | 0,07 |
*Valores com diferenças significativasTeste t de Student pareado, com nível de significância de 0,05
Legenda: M = valores médios
DP = desvio padrão
Após o exercício de vibração sonorizada, a análise estatística identificou mudanças significativas para as fases: fechada, aberta e de fechamento em pregas vocais femininas (Tabela 3). A Figura 3 apresenta as pregas vocais de uma amostra feminina, nas quais estão indicados os tempos de cada fase do ciclo vibratório, antes e depois das vibrações sonorizadas. Após o exercício de som basal, foi observada diferença estatística para a fase de fechamento em pregas vocais masculinas (Tabela 4).
Parâmetros | FF | FA | Ff | Fa | |||||
---|---|---|---|---|---|---|---|---|---|
pré | pós | pré | pós | pré | pós | pré | Pós | ||
Homens | M | 3,20 | 2,71 | 3,81 | 4,00 | 1,74 | 2,19 | 2,22 | 1,93 |
DP | 0,87 | 1,23 | 1,62 | 1,75 | 0,91 | 1,01 | 0,97 | 0,93 | |
Valor de p | 0,21 | 0,06 | 0,08 | 0,06 | |||||
Mulheres | M | 2,42 | 2,01 | 3,08 | 3,45 | 1,49 | 1,89 | 1,59 | 1,77 |
DP | 0,99 | 1,29 | 1,09 | 1,14 | 0,81 | 0,91 | 0,33 | 0,69 | |
Valor de p | 0,046* | 0,050* | 0,026* | 0,360 |
*Valores com diferenças significativas
Teste t de Student pareado, com nível de significância de 0,05
Legenda: FF = fase fechada
FA = fase aberta
Ff = fase de fechamento
Fa = fase de abertura
M = valores médios
DP = desvio-padrão
Parâmetros | FF | FA | Ff | Fa | |||||
---|---|---|---|---|---|---|---|---|---|
pré | pós | pré | pós | pré | pós | pré | Pós | ||
Homens | M | 3,84 | 3,87 | 3,98 | 3,84 | 2,20 | 1,83 | 1,79 | 2,01 |
DP | 0,93 | 0,87 | 1,05 | 0,91 | 0,72 | 0,65 | 0,48 | 0,44 | |
Valor de p | 0,930 | 0,330 | 0,026* | 0,210 | |||||
Mulheres | M | 2,41 | 2,62 | 2,55 | 2,39 | 1,18 | 1,08 | 1,41 | 1,26 |
DP | 0,45 | 0,34 | 0,55 | 0,59 | 0,37 | 0,28 | 0,26 | 0,38 | |
Valor de p | 0,13 | 0,29 | 0,35 | 0,13 |
*Valores com diferenças significativas
Teste t de Student pareado, com nível de significância de 0,05
Legenda: FF = fase fechada
FA = fase aberta
Ff: = fase de fechamento
Fa = fase de abertura
M = valores médios
DP = desvio-padrão
Esta pesquisa foi realizada com o objetivo de identificar os efeitos imediatos dos exercícios de vibração sonorizada e som basal na qualidade vocal e em pregas vocais de indivíduos saudáveis. Para tanto, o estudo utilizou parâmetros de perturbação da análise acústica e parâmetros dos tempos de fases da quimografia obtida de videolaringoscopias em alta velocidade.
Os resultados da análise acústica demonstraram que as vozes femininas foram as mais influenciadas pelos exercícios vocais após a vibração sonorizada, os parâmetros de perturbação diminuíram significativamente para o gênero feminino (p<0,01 para Jitter e Shimmer). Já as vozes masculinas diminuíram significativamente o Jitter (p=0,018) e não apresentaram mudanças significativas para Shimmer. De acordo a literatura( 24 , 25 ), o decréscimo destes parâmetros é um efeito esperado do exercício. Entretanto, os resultados de Shimmer para o gênero masculino concordam com alguns estudos que não encontraram mudanças nos parâmetros de perturbação após vibrações de língua( 5 , 25 ). De modo geral, os nossos resultados indicam efeito imediato das vibrações sonorizadas e menor perturbação média do sinal de voz com relação à variação da frequência e amplitude. A falta de corroboração estatística para Shimmer da amostra masculina sugere a realização de novas pesquisas, com aumento no número de indivíduos para o gênero.
Após o exercício de som basal, as vozes femininas apresentaram diminuição significativa de Jitter (p<0,01) e aumento nos valores de Shimmer (p=0,07). Não houve diferenças estatísticas para vozes masculinas. A literatura descreve como efeito fisiológico do som basal o incremento das medidas de perturbação durante a sua emissão, tanto da frequência quanto da amplitude( 8 , 26 ).
Um estudo de casos avaliou a voz saudável de cinco mulheres adultas e não encontrou mudanças nos parâmetros citados( 4 ). Outra pesquisa verificou aumento do Jitter em duas mulheres adultas com fendas glóticas em ampulheta( 4 , 8 ). Os nossos resultados divergem dos citados anteriormente, contudo, a literatura atual ainda não apresenta consenso com relação à indicação do tempo de execução do som basal para aplicação terapêutica( 26 ). A duração do exercício pode não ter sido suficiente para causar mudanças significativas nas vozes estudadas. Além disso, deve-se levar em conta as diferenças anatômicas e fisiológicas que os gêneros apresentam. Por exemplo: pregas vocais masculinas podem exigir maior tempo de execução de exercícios vocais para causar algum efeito em seu padrão vibratório, uma vez que se apresentam mais densas e mais compridas devido à angulação mais proeminente da cartilagem tireoide( 27 , 28 ).
Quanto à análise das quimografias de alta velocidade, a busca de trabalhos investigando pregas vocais sob efeitos imediatos de exercícios vocais encontrou estudos que realizam avaliação laringológica por meio da análise visual de videoestroboscopia. Nestas pesquisas, os parâmetros frequentemente avaliados são: fechamento glótico, constrição do vestíbulo laríngeo e amplitude e simetria das vibrações das pregas vocais. Não foram encontradas literaturas utilizando videoquimografias para este fim.
No presente estudo, as análises de quimografias de alta velocidade apresentaram comportamentos semelhantes nos ciclos vibratórios de ambos os gêneros, mas distintos com relação ao tipo de exercício vocal. Após as vibrações sonorizadas, observamos diminuição dos valores médios de FF, sendo que a maior diferença ocorreu em pregas vocais femininas (p=0,046). Houve aumento de FA e Ff em ambos os gêneros (FA: p=0,06 para homens e p=0,05 para mulheres; Ff: p=0,08 para homens e p=0,026 para mulheres). A Fa diminuiu em pregas vocais masculinas (p=0,06) e aumentou, sem relevância, em femininas (p=0,36).
De acordo com Titze( 1 ), as vibrações sonorizadas são exercícios de trato vocal semi-ocluído, cuja aplicação tem por objetivo produzir como efeitos: voz de intensidade normal, com economia de energia e menos trauma mecânico.
As vibrações sonorizadas promovem mudanças nos padrões vibratórios, pois durante a sua realização ocorre a aproximação suave das pregas vocais, adequando o fluxo de ar glótico e minimizando o impacto das colisões. Estas características foram descritas por meio de modelos matemáticos. A quimografia gerada de imagens laríngeas em alta velocidade surge como uma possibilidade de evidenciar as mesmas características analisando efeitos dos exercícios em laringes humanas.
Em nossos resultados, os efeitos descritos por Titze( 1 ) foram percebidos em ciclos vibratórios de pregas vocais masculinas, porém sem relevância significativa. Os achados para o gênero sugeririam contato suave das pregas vocais durante a produção de voz devido a uma lenta aproximação da mucosa das pregas vocais, com maior velocidade de afastamento dela e maior tempo da glote na posição aberta. Em ciclos glóticos femininos, estas mudanças foram significativas. Os resultados sugerem o efeito de contato suave entre pregas vocais devido à diminuição na velocidade de aproximação da mucosa das pregas vocais e maior tempo da glote na posição aberta, com menor tempo na posição fechada. Os parâmetros sem corroboração estatística indicam a necessidade de pesquisas, com aumento do número de amostras do gênero masculino.
Quanto à análise realizada após o som basal, os valores médios apresentaram discretas variações, com crescimento de FF e diminuição de FA para ambos os gêneros. A Fa aumentou em pregas vocais masculinas e diminuiu em femininas. Houve decréscimo de Ff para ambos os gêneros, sendo esta a única medida observada com mudança significativa para pregas vocais masculinas (p=0,026). De acordo com a literatura( 2 , 7 , 8 , 26 ), durante a emissão do som basal as pregas vocais são encurtadas em posição medial, com fechamento glótico mais firme devido à contração máxima do músculo tireoaritenoideo. Nestas condições, a mucosa das pregas vocais apresenta maior amplitude de vibração, ou seja, fica mais solta ao longo da borda livre, permitindo maior movimentação oscilatória. Em nossa pesquisa, um efeito indicado pelo som basal é a aproximação rápida das pregas vocais masculinas (p=0,026 Ff) em resposta à maior mobilidade de suas mucosas. Os resultados das demais fases, os quais não apresentaram mudanças significativas, necessitam ser melhores investigados por meio do maior número de amostras e da duração do exercício. A emissão de um minuto do som basal pode não ter sido suficientemente adequada para promover mudanças efetivas nas pregas vocais estudadas.
Os equipamentos e métodos escolhidos para extrair parâmetros dos sinais acústicos e das imagens em alta velocidade se mostraram eficientes ao estudo de vozes saudáveis sob efeito de exercícios vocais. Acredita-se que eles sejam úteis para avaliar os diferentes aspectos dimensionais da voz em pesquisas que investiguem patologias ou processos terapêuticos.
Com os resultados do presente estudo podem-se indicar como aplicação clínica os seguintes objetivos terapêuticos: exercícios de vibrações sonorizadas podem ser direcionados quando se pretende alcançar qualidade vocal mais resistente, vibrações cordais mais periódicas e contatos suaves de pregas vocais; tanto pacientes com lesões de massas em pregas vocais quanto indivíduos com uso ocupacional da voz podem se beneficiar desta técnica; o exercício de som basal, apesar de poucos resultados expressivos, demonstrou ser eficiente em objetivos vocais cuja indicação é promover o aumento da mobilidade das pregas vocais; e pacientes que apresentam insuficiência glótica têm a sua emissão vocal favorecida por esta técnica.
Foi possível identificar efeitos imediatos de vibrações sonorizadas e de som basal em vozes saudáveis por meio da análise de parâmetros acústicos e de quimografias de alta velocidade. Identificaram-se como efeitos imediatos das vibrações sonorizadas a diminuição de Jitter na emissão vocal de ambos os gêneros; a diminuição de Shimmer na emissão vocal do gênero feminino e a diminuição do esforço, com aumento da eficácia na produção de voz do gênero feminino observado nos parâmetros da quimografia de alta velocidade.
Após o exercício de som basal, foram identificados os efeitos imediatos de diminuição do Jitter ao gênero feminino e aumento do fechamento glótico ao gênero masculino, indicado pelo parâmetro a fase fechamento da quimografia de alta velocidade.
Também foi possível identificar mais efeitos imediatos positivos após as vibrações sonorizadas, principalmente em qualidade e pregas vocais de mulheres. No entanto, são necessárias pesquisas com maior número de amostras masculinas e investigação sobre o tempo adequado do som basal para corroboração dos resultados desta pesquisa.