Desempenho do diagrama de desvio fonatório na avaliação de vozes sintetizadas rugosas e soprosas,

Desempenho do diagrama de desvio fonatório na avaliação de vozes sintetizadas rugosas e soprosas,

Autores:

Leonardo Wanderley Lopes,
Jonas Almeida de Freitas,
Anna Alice Almeida,
Priscila Oliveira Costa Silva,
Giorvan Ânderson dos Santos Alves

ARTIGO ORIGINAL

Brazilian Journal of Otorhinolaryngology

versão impressa ISSN 1808-8694versão On-line ISSN 1808-8686

Braz. j. otorhinolaryngol. vol.84 no.4 São Paulo jul./ago. 2018

http://dx.doi.org/10.1016/j.bjorl.2017.05.012

Introdução

Tradicionalmente, a avaliação vocal inclui a investigação e integração de dados perceptivo-auditivos, laríngeos, aerodinâmicos, acústicos e de autoavaliação.1,2 Especificamente, a avaliação perceptivo-auditiva e a análise acústica são os principais instrumentos usados pelo fonoaudiólogo para caracterização do desvio da qualidade vocal presente no distúrbio de voz.3

Os estudos na área de avaliação e diagnóstico dos distúrbios da voz procuram investigar três questões clínicas essenciais:3 a capacidade da medida para determinar a presença/ausência de um distúrbio de voz (diagnóstico); a evidência de que o teste usado consegue determinar a origem (etiologia) de um distúrbio de voz; e a capacidade que uma medida tem de determinar a extensão (intensidade) de um distúrbio de voz.

A avaliação perceptivo-auditiva da voz inclui a definição da intensidade do desvio presente à emissão e da qualidade vocal predominante, em caso de emissões desviadas. Os descritores "rugosidade", "soprosidade" e "tensão" são usados universalmente4,5 para caracterizar vozes disfônicas, apresentam correlatos nos planos fisiológicos e acústicos.6-8 No entanto, os parâmetros de rugosidade e soprosidade são considerados mais substanciais, enquanto a tensão é um atributo com menor confiabilidade e com grande variabilidade interavaliador, o que justifica sua omissão em alguns protocolos de avaliação perceptivo-auditiva.9,10

A análise acústica corresponde ao registro do sinal sonoro, que é o produto complexo da interação não linear das propriedades biomecânicas e aerodinâmicas do sistema de produção vocal.8 Ela traz uma estimativa indireta dos padrões vibratórios das pregas vocais, do trato vocal e de seus diferentes ajustes, contribui para a tarefa de análise e classificação da qualidade vocal.11-14

O jitter e o shimmer estão entre as principais medidas acústicas baseadas em modelos lineares de produção vocal e usadas no contexto clínico.15 Elas analisam o índice de perturbação da frequência fundamental, ou seja, o controle de vibração das pregas vocais (jitter) e o índice de perturbação da amplitude, que se relaciona com a resistência glótica (shimmer).16,17

Além das medidas de perturbação, as medidas de ruído, como o Glottal to Noise Excitation (GNE) e a Proporção Harmônico-Ruído (PHR), também são muito usadas no contexto clínico,8,18,19 pois evidenciam se o sinal vocal é proveniente de vibração de pregas vocais ou da corrente de ar apresentada (GNE), como também do sinal regular das pregas vocais em relação ao sinal irregular das pregas vocais e do trato vocal, relacionam o ruído harmônico versus o componente de ruído da onda (PHR).17,19,20

De modo geral, uma emissão desviada tende a combinar diferentes componentes de ruído e perturbação, de modo que os estudos com o uso de medidas combinadas podem representar de forma mais adequada o desvio de qualidade vocal percebido auditivamente.8,16,20-23

Nesse contexto, o Diagrama de Desvio Fonatório (DDF), ou hoarseness diagram (em sua versão original),24-26 oferece a possibilidade de análise combinada das medidas de perturbação (jitter, shimmer e correlação) e ruído (GNE), torna-se uma ferramenta importante de avaliação e monitoramento dos distúrbios da voz.17,27-30

Um dos grandes desafios da avaliação vocal é a análise integrada dos dados, o que inclui as informações de natureza acústica e perceptivo-auditiva.31 Uma das possíveis soluções apontadas para uma maior compreensão das relações entre o fenômeno acústico e perceptual relacionado ao sinal vocal é o desenvolvimento de pesquisas com vozes geradas por sintetizadores.32

As vozes sintetizadas têm propriedades acústicas e condições de produção altamente controladas e conhecidas, o que contribui para a compreensão dos mecanismos subjacentes ao desvio de qualidade vocal percebido auditivamente. Os sintetizadores simulam os desvios de produção vocal como rugosidade, soprosidade e tensão, a partir da manipulação dos parâmetros de perturbação, ruído e diferenças de tensão/simetria entre as pregas vocais, respectivamente.33

Dessa forma, considerando-se que a identificação da presença e do grau de rugosidade e soprosidade fazem parte da rotina clínica de avaliação vocal, que o DDF é uma ferramenta importante na avaliação e no monitoramento dos distúrbios da voz e que o uso de sinais sintetizados possibilita um maior controle do estímulo e pode elucidar as condições subjacentes ao desvio percebido, o objetivo desta pesquisa é analisar o desempenho do DDF na discriminação da presença e do grau de rugosidade e soprosidade em vozes sintetizadas.

Para tanto, foram levantadas duas hipóteses: 1) há diferenças quanto aos parâmetros do DDF na identificação de vozes com e sem rugosidade e soprosidade; 2) há diferenças nos parâmetros do DDF na identificação de sinais com diferentes graus de rugosidade e soprosidade.

Método

Desenho do estudo

Pesquisa documental, descritiva e transversal, feita no Laboratório de Voz do Departamento de Fonoaudiologia de uma instituição de ensino superior. Foi avaliada e aprovada pelo Comitê de Ética em Pesquisa da instituição de origem, com o parecer n° 508200/2013.

Amostra

Usou-se nesta pesquisa um conjunto de vozes sintetizadas desenvolvidas pelo sintetizador VoiceSim.33 O sintetizador consiste em um sistema computacional que contém um modelo da prega vocal e uma representação do trato vocal em forma de tubos concatenados, por meio do qual uma onda acústica se propaga.32

Foram produzidos desvios vocais de rugosidade e soprosidade, a partir da manipulação dos parâmetros acústicos de perturbação da frequência fundamental (flutter, tremor e wow), ruído aditivo e assimetria de tensão entre as pregas vocais.33

A rugosidade foi gerada a partir da manipulação da duração do ciclo de excitação glótica e jitter, com a introdução de um distúrbio estocástico na tensão do tecido das pregas vocais, com a fórmula: ΔK = αɛK na qual /α/ é um parâmetro de escala, /ɛ/ é uma variável aleatória e /K/ é um coeficiente de rigidez das pregas vocais.

A soprosidade foi gerada com a inserção de ruído aditivo, de acordo com a fórmula: Δµ = bɛµ na qual /µ/ é a taxa de fluxo de ar glotal, /b/ é um parâmetro de escala e /ɛ/ é uma variável aleatória, semelhante ao jitter.

Os parâmetros de assimetria de tensão entre as pregas vocais, pressão subglótica e a separação das pregas vocais também foi controlado na produção desses sinais sintetizados. Para mais detalhes sobre o sintetizador, pode-se consultar a literatura disponível.33

O material de fala dos estímulos sintetizados foi a vogal /ɛ/ sustentada por três segundos. Optou-se por essa vogal por ser comumente usada nos procedimentos de avaliação vocal e laríngea no Brasil,34 tendo em vista também que é uma vogal oral, média, aberta e não arredondada, considerada a vogal mais média do português brasileiro34 que permite uma posição mais neutra e intermediária do trato vocal.

Desse modo, foram usados 871 sinais vocais sintetizados, 426 (48,8%) femininos e 446 (51,2%) masculinos, com diferentes combinações dos parâmetros acústicos citados anteriormente.

Procedimentos

A análise acústica foi feita por meio do software VoxMetria versão 4.5 h, da CTS Informática (Pato Branco, Paraná, Brasil), no módulo qualidade vocal. Para essa avaliação usou-se o DDF, a fim de analisar a distribuição dos sinais vocais de acordo com a área, o quadrante, a forma e a densidade.

Com relação à área, o próprio software indica se o sinal vocal está dentro ou fora da área de normalidade (fig. 1).

Figura 1 Sinais vocais dentro (pontos na cor azul) e fora (pontos na cor verde) da área de normalidade do DDF. 

Quanto aos quadrantes, o DDF foi dividido em quatro quadrantes iguais:17 inferior-esquerdo (1), inferior-direito (2), superior-direito (3) e superior-esquerdo (4) (fig. 2).

Figura 2 Divisão do DDF em quadrantes. 

Sobre a distribuição dos pontos em relação à densidade (figs. 3 e 4), os pontos referentes à distribuição dos sinais vocais foram classificados em concentrados, quando os pontos se distribuíram em um espaço correspondente a um quadrado, ou ampliados, quando os pontos se estenderam pelo espaço correspondente a mais de um quadrado do DDF.

Figura 3 Amostra vocal com densidade concentrada no DDF. 

Figura 4 Amostra vocal com densidade ampliada no DDF. 

A classificação da forma foi feita com uma régua simples de 10 cm sobre a folha impressa de cada DDF gerado pelo software, correspondeu à imagem de cada sinal vocal analisado, sem o conhecimento prévio da intensidade do desvio vocal e do tipo de voz predominante.

Os pontos referentes à distribuição dos sinais vocais foram categorizados em verticais, quando a distância entre os pontos ao longo da abscissa foi menor do que ao longo da ordenada (X < Y); horizontal, quando a distância entre os pontos ao longo da abscissa foi maior ao longo da ordenada (X > Y); e circular, quando a distância entre os pontos ao longo da ordenada e da abscissa foi aproximadamente igual (X≅Y).17

A sessão de avaliação perceptivo-auditiva ocorreu em ambiente silencioso e foi feita por um fonoaudiólogo especialista em voz e com mais de 10 anos de experiência nessa tarefa.

O juiz foi instruído de que as vozes deveriam ser consideradas normais quando fossem socialmente aceitáveis, produzidas de forma natural, sem irregularidade, ruído ou esforço observável durante a emissão. Ele também foi instruído de que a rugosidade corresponderia à presença de irregularidade vibratória e a soprosidade estaria relacionada ao escape de ar audível na emissão. O juiz foi treinado com estímulos-âncora, continham emissões normais e com desvio nos diferentes graus, assim como vozes predominantemente rugosas e soprosas. Além disso, instruiu-se o juiz quanto aos valores de corte que seriam adotados nesta pesquisa10 para categorização das vozes quanto à ausência e presença de rugosidade e soprosidade.

Para avaliação, o juiz usou uma Escala Analógica Visual (EAV), com uma métrica de 0 a 100 mm, avaliou a intensidade do desvio vocal (GG-grau geral) e os graus de rugosidade (GR) e de soprosidade (GS). A marcação mais próxima do 0 representa menor desvio vocal e quanto mais próxima do 100, maiores são os desvios.

Para avaliação, cada emissão da vogal sustentada foi apresentada por três vezes através de caixa de som, em intensidade confortável autorreferida pelo avaliador. No fim da sessão de avaliação perceptiva, 10% das amostras (88 sinais) foram repetidas aleatoriamente, para a análise da confiabilidade do juiz, por meio do coeficiente Kappa de Cohen. O valor de Kappa foi de 0,88, indicou excelente confiabilidade do avaliador.35

Na literatura atual,10,36 encontram-se valores distintos de pontos de corte para GG,36 GR10 e GS,10 usados tanto para categorização da presença/ausência do desvio vocal quanto para classificação do grau do desvio presente. Desse modo, considerando-se que o objetivo deste estudo é investigar o desempenho do DDF na discriminação da presença e do grau de rugosidade e soprosidade em vozes sintetizadas, optou-se pelo uso dos valores de corte estabelecidos para classificação dos parâmetros de rugosidade e soprosidade.10

Para o GR, são considerados os seguintes pontos de corte:10 ausência de rugosidade ou Grau 0 (0-8,5 mm), rugosidade leve ou Grau 1 (8,6-28,5 mm), rugosidade moderada ou Grau 2 (28,6-59,5) e rugosidade intensa ou Grau 3 (≥ 59,6 mm). Com relação ao GS foram preconizados os seguintes pontos de corte: ausência de rugosidade ou Grau 0 (0-8,5 mm), rugosidade leve ou Grau 1 (8,6-33,5 mm), rugosidade moderada ou Grau 2 (33,6-52,0 mm) e rugosidade intensa ou Grau 3 (≥ 52,1 mm).

Assim, foi feita uma correspondência entre a EAV usada para o GR e GS e a escala numérica,10 conforme descrito na sequência:

  • - Grau 0: GR e GS ≤ 8,4 mm;

  • - Grau 1: 8,5 mm ≤ GR ≤ 28,4 mm e 8,5 ≤ GS ≤ 33,4 mm

  • - Grau 2: 28,5 mm ≤ GR ≤ 59,4 mm e 33,5 mm ≤ GS ≤ 52,4 mm;

  • - Grau 3: GR ≥ 59,5 mm e GS ≥ 52,5 mm.

O ponto de corte de 8,4 mm também foi usado para categorizar as vozes quanto à presença ou ausência de rugosidade e soprosidade.10 Vozes com valores > 8,4 mm no GR e GS foram consideradas com presença de rugosidade e soprosidade na emissão vocal, respectivamente.

Optou-se por não analisar o parâmetro de tensão, visto que outros estudos já indicam que tal característica não é especificamente identificada no DDF,17,29 além de não haver consenso da inclusão desse parâmetro nos protocolos de avaliação perceptivo-auditiva.1,10

A avaliação do GG36 não foi usada para categorização dos sinais, mas apenas para caracterização da amostra no presente estudo.

Desse modo, a partir dos resultados da análise perceptivo-auditiva do GR e GS, observou-se a seguinte classificação:

  • - Quanto à presença de rugosidade: 128 (14,7%) sinais sem rugosidade (GR ≤ 8,4 mm) e 743 (85,3%) com rugosidade (GR ≥ 8,5 mm) (tabela 1);

    Tabela 1 Distribuição dos sinais vocais quanto à presença e ao grau de rugosidade e soprosidade 

    Variável n %
    Grau de rugosidade
    Normal 128 14,70
    Leve a moderado 256 29,40
    Moderado 475 54,50
    Intenso 12 1,40
    Total 871 100
    Grau de soprosidade
    Normal 365 41,90
    Leve a moderado 187 21,50
    Moderado 310 35,60
    Intenso 9 1,00
    Total 871 100

  • - Quanto à presença de soprosidade: 365 (41,9%) sinais sem soprosidade (GS ≤ 8,4 mm) e 506 (58,1%) com soprosidade (GS ≥ 8,5 mm) (tabela 1).

Pode-se destacar que não foi feita uma análise categórica da qualidade vocal predominante na emissão, mas um mesmo sinal vocal poderia apresentar componentes de rugosidade e soprosidade, visto que o critério para alocação dos sinais quanto à presença/ausência desses componentes foi o resultado da avaliação independente de cada um deles por meio da EAV (GR e GS) e dos pontos de corte estabelecidos para esses parâmetros (tabela 2).

Tabela 2 Comparação da frequência de distribuição das vozes sintetizadas com e sem rugosidade em função da área, densidade, quadrante e forma do DDF 

Configuração Sem rugosidade Com rugosidade p-valor
n % EAV-GG n % EAV-GG
Área < 0,001a
Dentro 82 64,07 20,60±6,66 35 4,71 41,47±23,54
Fora 46 35,93 26,61±16,05 708 95,28 60,05±0,00
Densidade 0,060
Concentrada 79 61,71 22,57±17,28 514 69,15 60,92±19,38
Ampliada 49 38,28 23,08±8,66 229 30,82 55,25±0,00
Quadrante < 0,001a
Inf. esquerdo 90 70,31 21,22±8,66 49 6,59 41,15±23,04
Inf. direito 38 29,68 26,42±16,05 688 92,59 60,42±0,00
Sup. direito 0 0 6 0,80 2,83±0,91
Forma 0,488
Circular 3 2,34 21,00±23,16 27 3,63 68,67±22,14
Horizontal 125 97,65 22,81±8,66 711 95,69 58,76±0,00
Vertical 0 0 5 0,67 60,30±24,02

aValores significativos (p < 0,05) - Teste qui-quadrado e teste exato de Fisher.EAV, Escala Analógica Visual; GG, grau geral; Inf., inferior; Sup., superior.

Análise de dados

A análise estatística foi descritiva para todas as variáveis estudadas e usaram-se os testes de igualdade de proporções, o exato de Fisher e o qui-quadrado (x2) para comparar a análise das variáveis relacionadas às medidas perceptivo-auditivas (presença e grau de rugosidade e soprosidade) e acústicas (área, densidade, forma e quadrante do DDF). O teste de Kruskal-Wallis foi usado para comparar as medidas acústicas em função do grau de rugosidade e soprosidade.

O nível de significância adotado foi de 5% para todas as análises. O software usado foi o Statistical Packpage for the Social Sciences (SPSS, versão 21.0).

Resultados

Inicialmente, foram comparadas as frequências de distribuição das vozes sintetizadas com e sem rugosidade em função da área, densidade, do quadrante e da forma do DDF (tabela 2). Observou-se que existia uma diferença entre os sinais com e sem rugosidade em função da área e do quadrante do DDF (tabela 2). Os sinais vocais com rugosidade se encontraram proporcionalmente fora da área de normalidade do DDF e no quadrante inferior-direito. Não houve diferença estatisticamente significante para a distribuição dos sinais com e sem rugosidade em função da densidade e da forma dos pontos do DDF.

Na sequência, comparou-se a distribuição dos sinais com e sem soprosidade em função dos parâmetros do DDF. Houve diferença na proporção desses sinais quanto à área, densidade e ao quadrante do DDF. As vozes soprosas localizaram-se predominantemente fora da área de normalidade e no quadrante inferior-direito (tabela 3).

Tabela 3 Comparação da frequência de distribuição das vozes sintetizadas com e sem soprosidade em função da área, densidade, quadrante e forma do DDF 

Configuração Sem soprosidade Com soprosidade p-valor
n % EAV-GG n % EAV-GG
Área < 0,001a
Dentro 90 24,65 40,90 ± 16,47 27 5,33 44,07 ± 24,86
Fora 275 75,35 53,35 ± 16,49 479 94,67 58,10 ± 10,32
Densidade 0,031
Concentrada 236 64,65 8,01 ± 19,09 357 70,55 58,45 ± 10,32
Ampliada 129 35,35 9,13 ± 16,88 149 29,45 54,68 ± 17,42
Quadrante < 0,001a
Inf. esquerdo 103 28,21 5,21 ± 15,04 36 7,12 44,08 ± 25,00
Inf. direito 262 71,79 9,66 ± 16,88 464 91,69 58,07 ± 10,32
Sup. direito 0 0 6 1,19 80,91 ± 24,83
Sup. esquerdo
Forma 0,861
Circular 10 2,74 5,85 ± 25,27 20 3,96 65,55 ± 24,32
Horizontal 355 97,26 8,84 ± 16,88 481 95,05 56,91 ± 10,32
Vertical 0 0 5 0,99 64,1 ± 25,87

aValores significativos (p < 0,05) - Teste qui-quadrado e teste exato de Fisher.EAV, Escala Analógica Visual; GG, grau geral; Inf., inferior; Sup., superior.

Quando se comparou a frequência de distribuição das vozes com diferentes graus de rugosidade em função dos parâmetros do DDF, identificou-se uma diferença na distribuição dos sinais em relação a todos os parâmetros do DDF (tabela 4). Vozes com maior grau de rugosidade situaram-se proporcionalmente fora da área de normalidade, no quadrante inferior-direito, e apresentaram densidade concentrada em relação às vozes com menor grau de rugosidade. Quanto à forma, embora tenha sido encontrada diferença entre as proporções dos grupos, não houve um padrão de distribuição dos sinais com diferentes graus de rugosidade em uma forma específica, visto que em todos os graus os sinais apresentaram predominantemente a forma horizontal.

Tabela 4 Comparação da frequência de distribuição das vozes com diferentes graus de rugosidade em função da área, densidade, quadrante e forma do DDF 

Configuração Normal (0) Leve a moderado (1) Moderado (2) Intenso (3) p-valor
n % EAV-GG n % EAV-GG n % EAV-GG n % EAV-GG
Área < 0,001a
Dentro 82 64,06 20,60 ± 8,66 31 12,10 38,82 ± 23,54 4 0,84 62,00 ± 29,97 0 0
Fora 46 35,93 25,61 ± 16,65 225 87,89 43,38 ± 0,00 471 99,15 67,21 ± 0,00 12 100 91,37 ± 22,14
Densidade
Concentrada 79 61,71 22,57 ± 11,08 153 59,76 43,30 ± 23,54 350 73,68 67,66 ± 0,00 11 91,66 91,50 ± 22,14 < 0,001a
Ampliada 49 29,68 23,08 ± 8,66 103 40,23 42,13 ± 0,00 125 26,31 65,78 ± 19,80 1 8,33 90,00 ± 19,90
Quadrante
Inf. esquerdo 90 70,31 21,27 ± 6,66 45 17,57 39,30 ± 23,54 4 0,84 62,00 ± 24,74 0 0 < 0,001a
Inf. direito 38 38,28 26,42 ± 16,05 210 82,03 43,53 ± 0,00 466 98,10 67,22 ± 0,00 12 100 91,37 ± 18,04
Sup. direito 0 0 1 0,39 47,05 ± 20,93 5 1,05 66,10 ± 20,60 0 0
Sup. esquerdo 0 0 0 0 0 0 0 0
Forma
Circular 3 2,34 21,00 ± 23,16 3 1,17 42,50 ± 18,86 21 4,42 69,40 ± 20,60 3 25,00 90,66 ± 18,04 0,019a
Horizontal 125 97,65 22,81 ± 8,66 251 98,04 42,80 ± 0,00 451 94,94 66,98 ± 0,00 9 75,00 97,61 ± 19,90
Vertical 0 0 2 0,78 46,25 ± 16,63 3 0,63 79, 66 ± 20,08 0 0

aValores significativos (p < 0,05) - Teste qui-quadrado e teste exato de Fisher.EAV, Escala Analógica Visual; GG, grau geral; Inf., inferior; Sup., superior.

Quanto ao grau de soprosidade, houve diferença na distribuição dos sinais em função dos parâmetros de área, densidade e quadrante do DDF (tabela 5). Vozes com maior grau de soprosidade situaram-se proporcionalmente mais fora da área de normalidade, com densidade mais concentrada e no quadrante inferior-direito, em relação aos sinais com menor grau de soprosidade.

Tabela 5 Comparação da frequência de distribuição das vozes com diferentes graus de soprosidade em função da área, densidade, quadrante e forma do DDF 

Configuração Normal (0) Leve a moderado (1) Moderado (2) Intenso (3) p-valor
n % EAV-GG n % EAV-GG n % EAV-GG n % EAV-GG
Área
Dentro 89 24,38 4,87 ± 11,55 24 12,83 40,43 ± 22,76 4 1,29 56,37 ± 21,12 0 0 < 0,001a
Fora 276 75,61 9,55 ± 12,08 163 87,16 42,90 ± 23,22 306 98,70 65,24 ± 7,55 9 100 90, 61 ± 22,39
Densidade
Concentrada 235 64,38 8,02 ± 13,50 124 66,31 42,50 ± 23,22 225 72,58 65,73 ± 7,55 9 100 90,61 ± 22,39 0,008a
Ampliada 130 35,61 9,13 ± 12,08 63 33,68 42,75 ± 21,34 85 27,41 63,53 ± 12,96 0 0
Quadrante
Inf. esquerdo 102 27,94 5,20 ± 11,55 32 17,11 40,73 ± 22,76 5 1,61 57,90 ± 21,12 0 0 < 0,001a
Inf. direito 263 72,05 9,66 ± 12,08 155 82,88 42,96 ± 23,22 300 96,77 65,01 ± 7,55 8 88,88 90,68 ± 22,39
Sup. direito 0 0 0 0 5 1,61 79,10 ± 22,20 1 11,11 90,00 ± 21,75
Sup. esquerdo 0 0 0 0 0 0 0 0
Forma
Circular 10 2,73 5,85 ± 22,54 3 1,60 44,16 ± 24,74 17 5,84 69,32 ± 22,20 0 0 0,563
Horizontal 355 97,25 8,48 ± 12,08 184 98,39 42,55 ± 23,22 288 92,90 64,90 ± 7,55 9 100 90,61 ± 22,39
Vertical 0 0 0 0 5 1,61 64,10 ± 23,61 0 0

aValores significativos (p < 0,05) - Teste qui-quadrado e teste exato de Fisher.EAV, Escala Analógica Visual; GG, grau geral; Inf., inferior; Sup., superior.

Discussão

Este estudo analisou o desempenho do DDF na discriminação da presença e do grau de rugosidade e soprosidade em vozes sintetizadas. Essa seção foi organizada com o objetivo de esclarecer as conclusões do estudo em virtude das hipóteses levantadas. Didaticamente, optou-se por analisar os componentes de rugosidade e soprosidade em subseções.

Desempenho do DDF na avaliação da presença e do grau de rugosidade

Observou-se, neste estudo, que a área e o quadrante do DDF foram capazes de discriminar entre sinais normais e sinais com rugosidade. As vozes com rugosidade localizaram-se predominantemente fora da área de normalidade e no quadrante inferior direito.

Estudos anteriores, feitos com vozes de adultos17 e com vozes infantis,29 corroboram os achados obtidos no presente estudo. Tanto o quadrante inferior-direito quanto a área do DDF foram importantes para discriminar vozes com presença e ausência de rugosidade, o que mostra que esses dois parâmetros são substanciais e confiáveis para avaliar a rugosidade em vozes disfônicas e não disfônicas.

O DDF avalia a irregularidade do sinal em sua posição horizontal, está associado ao conceito de rugosidade.24,26 Quanto maior a irregularidade do sinal vocal, maior será o seu deslocamento da esquerda para a direita no gráfico. Tal fato justifica a localização de vozes rugosas fora da área de normalidade e no quadrante inferior direito, tanto no presente estudo quanto nos anteriores.17,29

Além disso, ressalta-se que a rugosidade é um dos parâmetros universais de avaliação perceptivo-auditiva da qualidade vocal, representa uma característica importante na identificação da presença de alterações vocais ou laríngeas.37

A rugosidade está comumente relacionada à presença de alterações estruturais e/ou funcionais na laringe, como nos casos de edemas, vasculodisgenesias, lesões nodulares, pólipos ou qualquer outro componente que gere aumento de massa na porção membranosa das pregas vocais38 e, consequentemente, irregularidade no padrão vibratório das pregas vocais. No plano acústico, a rugosidade está associada aos parâmetros de jitter e shimmer.19

Quanto à distribuição das vozes com diferentes graus de rugosidade no DDF, verificou-se que sinais vocais com maior componente de rugosidade situaram-se proporcionalmente fora da área de normalidade e no quadrante inferior-direito. Com relação à densidade, sinais com desvio moderado e intenso apresentaram, predominantemente, densidade concentrada.

É importante ressaltar que 35,93% (n = 46) das vozes sintetizadas sem rugosidade se encontraram fora da área de normalidade e 12,10% (n = 31) das vozes com rugosidade em grau leve a moderado situaram-se dentro da área de normalidade, ou seja, o DDF apresentou maior fator de confundimento na identificação de vozes sem rugosidade e com desvio leve em relação aos sinais com maior grau de rugosidade (moderado e intenso).

Nos modelos tradicionais, com o uso de algoritmos que extraem de forma isolada as medidas de jitter e shimmer, observa-se um comportamento inverso, uma vez que há uma menor confiabilidade no uso dessas medidas extraídas isoladamente na avaliação de vozes mais desviadas.15,17,20,24,26,39-41

Com relação à densidade, poucos estudos17,28,29 incluíram especificamente esse parâmetro para análise do DDF e nenhum deles investigou a distribuição de vozes com diferentes graus de rugosidade em função da densidade do DDF. Em apenas um desses estudos17 observou-se diferença na distribuição dos sinais com e sem desvio vocal quanto à densidade, com os sinais desviados caracterizados com densidade ampliada.

Em outros estudos nos quais o DDF foi usado,20,24,26,40-42 o parâmetro densidade pode ser inferido a partir da distância entre os pontos apenas no eixo da abcissa, está associado a sinais com densidade ampliada ou concentrada, respectivamente. Todos esses estudos foram longitudinais e observaram que há uma tendência à menor dispersão dos pontos no eixo da abcissa pós-intervenção, embora haja uma grande variabilidade individual quanto a esse parâmetro ao longo do tratamento,26 com diferenças significativa apenas entre as condições pré e pós-tratamento.

Nesta pesquisa observou-se uma maior variabilidade na distribuição dos sinais sem componente de rugosidade ou com rugosidade em grau leve a moderado entre as densidades concentrada e ampliada. Tal fato ratifica o bom desempenho do DDF na análise de sinais com ampla faixa de desvio e sua confiabilidade na avaliação de sinais mais desviados. Além disso, pode-se inferir que o parâmetro densidade do DDF parece ser mais substancial para analisar de forma qualitativa a evolução do paciente quanto ao componente de rugosidade na emissão vocal.

Quanto à forma, embora tenha sido encontrada significância estatística, não se observou um padrão de distribuição dos sinais com diferentes graus de rugosidade em função desse parâmetro do DDF. Em todos os graus, as vozes apresentaram-se predominantemente forma horizontal, com diferenças apenas entre as proporções dos grupos. Esse achado corrobora a literatura, pois há uma tendência de que os sinais se apresentem com predomínio da dispersão dos pontos na dimensão horizontal, independentemente da presença e do grau de desvio vocal.20,24,26,40-42

Mesmo na proposta original de classificação do sinal vocal em função da forma no DDF não se observou diferença significante entre sinais saudáveis e desviados, assim como entre diferentes graus de desvio e entre vozes rugosas, soprosas e tensas.17 Desse modo, a forma dos pontos distribuídos no DDF parece não constituir um parâmetro substancial para diferenciação dos sinais.

Desempenho do DDF na avaliação da presença e do grau da soprosidade

Quando se comparou a distribuição dos sinais vocais com e sem soprosidade em função dos parâmetros do DDF, verificou-se que área e quadrante foram capazes de discriminar sinais vocais normais de sinais com soprosidade. Os sinais vocais soprosos situaram-se fora da área de normalidade e se localizaram predominantemente no quadrante inferior direito.

A soprosidade está entre os parâmetros universalmente aceitos para avaliação perceptivo-auditiva da qualidade vocal e para caracterização de uma voz disfônica.4,8,37 Desse modo, o fato de o DDF identificar corretamente os sinais soprosos fora da área de normalidade reforça sua utilidade no contexto clínico de avaliação vocal.

No entanto, observou-se que os parâmetros área e quadrante do DDF se comportaram de forma idêntica, tanto em vozes rugosas como em vozes soprosas. Os sinais vocais com rugosidade e com soprosidade encontraram-se fora da área de normalidade e no quadrante inferior direito. Desse modo, pode-se discutir acerca das inter-relações desses dois parâmetros em termos fisiológicos e perceptuais.

A presença de soprosidade, fisiologicamente, está associada ao maior grau de separação entre os processos vocais, a menor convexidade da borda livre das pregas vocais e ao menor tempo da fase fechada dos ciclos glóticos.43 Por sua vez, pregas vocais mais afastadas da linha média tendem a vibrar com maior irregularidade e menor amplitude da onda mucosa,44 o que, consequentemente, gera componente de rugosidade na emissão.37

Desse modo, considerando-se que os sinais com rugosidade e soprosidade apresentaram, de modo geral, desvio moderado, com GG de 62,19 ± 14,80 e 65,28 ± 14,75 pontos na EAV,36 respectivamente, compreende-se a distribuição semelhante dos sinais com rugosidade e com soprosidade na área e quadrante do DDF.

Embora o sintetizador usado para gerar os sinais desta pesquisa possibilite a criação de vozes com componentes isolados de rugosidade (perturbação) e soprosidade (ruído aditivo), essa separação não foi usada no presente estudo. Sugerem-se investigações posteriores com separação dos sinais exclusivamente rugosos e soprosos para verificação do desempenho do DDF nessa classificação.

Em outros estudos,17,29 as vozes soprosas localizaram-se fora da área de normalidade, mas distribuíram-se entre os quadrantes inferior direito e superior direito. Algumas questões metodológicas precisam ser destacadas para evidenciar a distribuição semelhante das vozes rugosas e soprosas no quadrante inferior direito nesta pesquisa.

Os dois estudos citados17,29 usaram como critério para a classificação das vozes em rugosas, soprosas ou tensas uma tarefa de escolha forçada, em que o avaliador, caso considerasse a emissão desviada, deveria determinar a qualidade vocal predominante. Esse tipo de tarefa de avaliação permite apenas uma possibilidade de escolha para cada emissão e não, necessariamente, uma classificação quanto à presença/ausência de cada parâmetro desviado na emissão.

Por sua vez, no presente estudo, avaliou-se o grau de rugosidade e soprosidade presentes na emissão por meio de uma EAV e, a partir dos valores de corte, estabeleceu-se a presença/ausência de tais componentes, com a possibilidade de um mesmo sinal apresentar a presença de um ou mais deles, concomitantemente, o que se aproxima das condições habituais de produção vocal desviada.

Outro achado desta pesquisa é a alta porcentagem de vozes sem soprosidade (75,40%; n = 276) classificadas fora da área de normalidade do DDF. Em uma análise qualitativa dos dados, pode-se observar que o GG de desvio desses sinais é de 53,35 ± 16,49. Assim, embora esses sinais não tenham apresentado soprosidade percebida auditivamente, provavelmente foram avaliados como desviados na EAV devido à presença de rugosidade na emissão.

Quando comparados os resultados com relação à proporção de vozes com presença/ausência de rugosidade e presença/ausência de soprosidade identificadas dentro e fora da área de normalidade do DDF, observa-se que há uma maior identificação das vozes sem rugosidade dentro da área de normalidade (64,07%; n = 82) e uma maior identificação das vozes sem componente de soprosidade fora da área de normalidade (75,35%; n = 275).

Qualitativamente, foi encontrada uma diferença de mais de 20 pontos do GG da EAV entre as vozes sem rugosidade e sem soprosidade, com maiores valores de GG nesse último grupo. Essa diferença em si já justificaria os resultados quanto à maior proporção de sinais sem componente de soprosidade identificados fora da área de normalidade.

Esses achados reforçam que, mesmo em condições nas quais os critérios de avaliação perceptivo-auditiva para classificar os sinais não tinham por objetivo maximizar as diferenças entre eles, mas avaliá-los ao longo de um contínuo, o DDF também foi eficiente para a avaliação vocal, principalmente quanto aos sinais mais desviados.

Sugere-se que outros estudos sejam feitos com a mesma metodologia e os mesmos critérios de avaliação perceptivo-auditiva desta pesquisa, deve ser acrescentado a eles o critério de que os sinais selecionados para investigação apresentem apenas um dos componentes desviados a partir dos valores de corte da EAV.

Em relação ao grau de soprosidade, houve diferença na distribuição dos sinais em função da área, densidade e dos quadrantes do DDF. Observou-se que quanto maior o grau de soprosidade, maior a proporção de sinais localizados fora da área de normalidade, no quadrante inferior-direito e com densidade concentrada. Diante disso, verifica-se que quanto maior o componente de soprosidade no sinal vocal, maior a capacidade do DDF de identificar corretamente a presença de desvio.

Conforme comentado anteriormente, tal achado quanto à classificação de sinais com maior grau de desvio constitui-se em uma das maiores vantagens do DDF, visto que supre uma lacuna existente15 quanto ao uso e à confiabilidade das medidas tradicionais de perturbação e ruído na avaliação de vozes com desvios moderados e intensos.

Mais uma vez observou-se uma distribuição semelhante das vozes com diferentes graus de rugosidade e soprosidade em função da área, do quadrante e da densidade do DDF. A única diferença entre as vozes com diferentes graus de rugosidade e soprosidade está na distribuição dos sinais com Grau 2, em que houve uma maior identificação correta do grupo de vozes sem rugosidade dentro da área de normalidade do DDF. Tal fato já foi discutido nesta seção.

O eixo vertical do DDF avalia a presença de ruído aditivo no sinal vocal, compatível com a presença do componente de soprosidade.26 Por isso, esperava-se que quanto maior o componente de soprosidade na emissão, maior seria a proporção de sinais em direção ao quadrante superior esquerdo.

No estudo17 com vozes de adultos disfônicos observou-se que as vozes soprosas, embora se distribuíssem predominantemente no quadrante superior esquerdo (52,6%; n = 30), 19,3% (n = 11), situaram-se também no quadrante inferior-direito. Com a população pediátrica,29 as vozes soprosas encontraram-se distribuídas nos quadrantes inferior direito (35%; n = 7), inferior esquerdo (30%; n = 6), superior direito (30%; n = 6) e superior esquerdo (5%; n = 1).

Em pesquisas26,41 com pacientes que apresentavam paralisia unilateral de prega vocal26 e indivíduos com paralisia bilateral de pregas vocais,26,41 constatou-se que apenas o segundo grupo, cujos pacientes apresentavam soprosidade intensa, teve suas vozes localizadas no quadrante superior direito. Por sua vez, os indivíduos com paralisia unilateral tiveram suas vozes distribuídas entre os quadrantes inferior esquerdo e inferior direito.26

De modo geral, nas lesões altas do nervo vago, as pregas vocais encontram-se mais afastadas da linha média e a emissão vocal não é proveniente do mecanismo de vibração glótica, mas advém, primariamente, do fluxo de ar transglótico turbulento e de sua propagação no trato vocal,45,46 o que justificaria a presença desses sinais no quadrante superior direito.26

No presente estudo, apenas nove sinais foram classificados com desvio intenso de soprosidade e, desses, apenas um deles (11,11%) situou-se no quadrante superior direito. Dessa forma, dois pontos podem ser destacados: em primeiro lugar, o tamanho amostral, visto que poderia ser observado um resultado diferente nessa distribuição com uma maior amostra de vozes soprosas com desvios intensos; em segundo lugar, como já ressaltado anteriormente na discussão, há uma sobreposição do tipo do desvio vocal nos sinais estudados, visto que não se usou como critério de elegibilidade a presença de apenas um tipo de desvio em cada emissão.

Conclusões

A área e o quadrante do DDF são capazes de discriminar a presença e a ausência de rugosidade, como também a presença e a ausência de soprosidade em vozes sintetizadas. Sinais com maior grau de rugosidade e soprosidade situam-se proporcionalmente fora da área de normalidade, no quadrante inferior-direito e com densidade concentrada.

REFERÊNCIAS

1 Dejonckere PH, Bradley P, Clemente P, Cornut G, Crevier-Buchman L, Friedrich G, et al. A basic protocol for functional assessment of voice pathology, especially for investigating the efficacy of (phonosurgical) treatments and evaluating new assessment techniques. Eur Arch Otorhinolaryngol. 2001;258:77-82.
2 Ma EP, Yiu EM. Multiparametric evaluation of dysphonic severity. J Voice. 2006;20:380-90.
3 Roy N, Barkmeir-Kraemer J, Eadie T, Sivasankar MP, Metha D, Paul D, et al. Evidence-based clinical voice assessment: a systematic review. Am J Speech Lang Pathol. 2013;22:212-26.
4 Kempster GB, Gerratt BR, Verdolini Abbott K, Barkmeier-Kraemer J, Hillman RE. Consensus auditory-perceptual evaluation of voice: development of a standardized clinical protocol. Am J Speech Lang Pathol. 2009;18:124-32.
5 Oates J. Auditory-perceptual evaluation of disordered voice quality: pros, cons and future directions. Folia Phoniatr Logop. 2009;61:49-56.
6 Parsa V, Jamieson DG. Identification of pathological voices using glottal noise measures. J Speech Lang Hear Res. 2000;43:469-85.
7 Bhuta T, Patrick L, Garnett J. Perceptual evaluation of voice quality and its correlation with acoustic measurements. J Voice. 2004;18:299-304.
8 Lopes LW, Cavalcante DP, Costa PO. Intensidade do desvio vocal: integração de dados perceptivo-auditivos e acústicos em pacientes disfônicos. CoDAS. 2014;26:382-8.
9 Dejonckere P, Schoentgen J, Giordano A, Fraj S, Bocchi L, Manfredi C. Validity of jitter measures in non-quasi-periodic voices. Part I: Perceptual and computer performances in cycle pattern recognition. Logoped Phoniatr Vocol. 2011;36:70-7.
10 Baravieira PB, Brasolotto AG, Montagnoli AN, Silvério KCA, Yamasaki R, Behlau M. Análise perceptivo-auditiva de vozes rugosas e soprosas: correspondência entre a escala visual analógica e a escala numérica. CoDAS. 2016;28:163-7.
11 Nayak J, Bhat PS, Acharya R, Aithal UV. Classification and analysis of speech abnormalities. ITBM-RBM. 2005;26:319-27.
12 Awan S, Lawson L. The effect of anchor modality on the reliability of vocal severity ratings. J Voice. 2009;23:341-52.
13 Dejonckere PH, Giordano A, Schoentgen J, Frag S, Bocchi L, Manfredi C. To what degree of voice perturbation are jitter measurements valid? A novel approach with synthesized vowels and visuo-perceptual pattern recognition. Comput Methods Programs Biomed J. 2012;7:37-42.
14 Lowell SY. The acoustic assessment of voice in continuous speech. SIG 3 Perspect Voice Voice Dis. 2012;22:57-63.
15 Brockmann-Bausser M, Drinnan MJ. Routine acoustic voice analysis: time to think again?. Curr Opin Otolaryngol Head Neck Surg. 2011;19:165-70.
16 Brockmann M, Drinnan MJ, Storck C, Carding PN. Reliable jitter and shimmer measurements in voice clinics: the relevance of vowel, gender, vocal intensity, and fundamental frequency effects in a typical clinical task. J Voice. 2011;25:44-53.
17 Madazio G, Leão S, Behlau M. The phonatory deviation diagram: a novel objective measurement of vocal function. Folia Phoniatr Logop. 2011;63:305-11.
18 Awan SN, Frenkel ML. Improvements in estimating the harmonic-to-noise ratio of the voice. J Voice. 1994;8:255-62.
19 Godino LJL, Osma RV, Sáenz LN, Vilda GP, Blanco VM, Cruz RF. The effectiveness of the glottal to noise excitation ratio for the screening of voice disorders. J Voice. 2010;24:47-56.
20 Michaelis D, Gramss T, Strube HW. Glottal-to-noise excitation ratio - a new measure for describing pathological voices. Acta Acust. 1997;83:700-6.
21 Carrillo L, Ortiz KZ. Análise vocal (auditiva e acústica) nas disartrias. Pró-Fono R Atual Cient. 2007;19:381-6.
22 Lopes LW, Lima ILB, Almeida LNA, Cavalcante DP, Almeida AAF. Severity of voice disorders in children: correlations between perceptual and acoustic data. J Voice. 2012;26, e7-819.e12.
23 Lopes LW, Simões LB, Silva JD, Silva ED, Ugulino ACDN, Silva POC, et al. Accuracy of acoustic analysis measurements in the evaluation of patients with different laryngeal diagnoses. J Voice. 2016;31, 382.e15-82.e26.
24 Fröhlich M, Michaelis D, Strube HW, Kruse E. Acoustic voice quality description: case studies for different regions of the hoarseness diagram. In: Wittenberg T, Mergell P, Tigges M, Eysholdt U, editors. Advances in quantitative laryngoscopy. 2nd ed. Erlangen: Abteilung Phoniatrie, Universitäts-HNO-Klinik Göttin-gen; 1997. p. 143-50.
25 Michaelis D, Frohlich M, Stube HW. Selection and combination of acoustic features for the description of pathologic voices. J Acoust Soc Am. 1998;103:1628-40.
26 Fröhlich M, Michaelis D, Strube HW, Kruse E. Acoustic voice analysis by means of the hoarseness diagram. J Speech Hear Res. 2000;43:706-20.
27 Behlau M, Oliveira G, Pontes P. Vocal fold self-disruption after phonotrauma on a lead actor: a case presentation. J Voice. 2009;23:726-32.
28 Pifaia LR, Madazio G, Behlau M. Diagrama de desvio fonatório e análise perceptivo-auditiva pré e pós-terapia vocal. CoDAS. 2013;25:140-7.
29 Lopes LW, Lima ILB, Azevedo EHM, Silva MFBL, Silva POC. Análise acústica de vozes infantis: contribuições do Diagrama de Desvio Fonatório. Rev CEFAC. 2015;17:1173-83.
30 Oliveira IBD, Fernandez EDS, Gargantini EP. Disfonias orgânicas por neoplasias: análise de diagramas de desvio fonatório. Rev CEFAC. 2015;17:364-73.
31 Kreiman J, Gerrat B, Ito M. When and why listeners disagree in voice quality assessment tasks. J Acoust Soc Am. 2007;122:2354-64.
32 Englert M, Madazio G, Gielow I, Lucero J, Behlau M. Perceptual error identification of human and synthesized voices. J Voice. 2016;30:e17-23.
33 Lucero JC, Schoentgen J, Behlau M. Physics-based synthesis of disordered voices. In: Proceedings of Interspeech 14th Annual Conference of the International Speech Communication Association. 2013. p. 25-9.
34 Gonçalves MIR, Pontes PAL, Vieira VP, Pontes AAL, Curcio D, De Biase NG. Transfer function of Brazilian Portuguese oral vowels: a comparative acoustic analysis. Braz J Ororhinolaryngol. 2009;75:680-4.
35 Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159-75.
36 Yamasaki R, Madazio G, Leão SHS, Padovani M, Azevedo R, Behlau M. Auditory-perceptual evaluation of normal and dysphonic voices using the voice deviation scale. J Voice. 2017;31:67-71.
37 Connor NP, Cohen SB, Theis SM, Thibeault SL, Heatley DG, Bless DM. Attitudes of children with dysphonia. J Voice. 2008;22:197-209.
38 McAllister A, Sederholm E, Perceptual Sundberg J. acoustic analysis of vocal registers in 10-year-old children. Logoped Phoniatr Vocol. 2000;25:63-71.
39 Titze IR. Workshop on acoustic voice analysis: summary statement. Nat Cen Voice Speech; 1995.
40 Olthoff A, Mrugalla S, Lasjawi R, Frolich M, Stuermer I, Kruse E, et al. Assessment of irregular voices after total and laser surgical partial laryngectomy. Arch Otolaryngol Head Neck Surg. 2003;129:994-9.
41 Harnisch W, Brosch S, Schmidt M, Hagen R. Breathing and voice quality after surgical treatment for bilateral vocal cord paralysis. Arch Otolaryngol Head Neck Surg. 2008;134:278-84.
42 Schneider B, Denk DM, Bigenzahn W. Acoustic assessment of the voice quality before and after medialization thyroplasty using the titanium vocal fold medialization implant (TVFMI). Arch Otolaryngol Head Neck Surg. 2003;12:815-22.
43 Samlam RA, Story BH, Bunton K. Relation of perceived breathiness to laryngeal kinematics and acoustic measures based on computacional modeling. J Speech Lang Hear Res. 2013;56:1209-23.
44 Lucero JC, Koening LL. Simulations of temporal patterns of oral airflow in men and women using two-mass model of the vocal flods under dynamic control. J Acoust Soc Am. 2005;117:1362-72.
45 Sprecher A, Olszewski A, Jiang JJ, Zhang Y. Updating signal typing in voice: addition of type 4 signals. J Acoust Soc Am. 2010;127:3710-6.
46 Little MA, Costello DAE, Harries ML. Objective dysphonia quantification in vocal fold paralysis: comparing nonlinear with classical measures. J Voice. 2011;25:21-31.
Política de Privacidade. © Copyright, Todos os direitos reservados.