Análise de Correspondência: bases teóricas na interpretação de dados categóricos em Ciências da Saúde

Análise de Correspondência: bases teóricas na interpretação de dados categóricos em Ciências da Saúde

Autores:

Antonio Fernando Catelli Infantosi,
João Carlos da Gama Dias Costa,
Renan Moritz Varnier Rodrigues de Almeida

ARTIGO ORIGINAL

Cadernos de Saúde Pública

versão impressa ISSN 0102-311X

Cad. Saúde Pública vol.30 no.3 Rio de Janeiro mar. 2014

http://dx.doi.org/10.1590/0102-311X00128513

ABSTRACT

Categorical variables are common in the biomedical field, and many descriptive methods have been proposed for revealing intrinsic patterns in data. Correspondence Analysis is an especially useful method for categorical data analysis of large contingency tables. Although numerous studies have been published on this method, most Portuguese-language articles have failed to explore its full potential, focusing only on graphical interpretation. The current paper reviews the method, showing that graphical analysis can be enriched by the right statistics. The article presents the mathematical basis for correspondence analysis and its most frequently used statistics. The procedure has shown that such statistics enrich symmetric map evaluation, that a low relative frequency category can be represented by supplementary category points, and that inertia contributions are highly related to residual analysis of contingency tables, not easily visualized by symmetric maps. Correspondence Analysis has proven advantageous when compared to principal components analysis.

Key words: Multivariate Analysis; Health Care Quality Indicators; Statistical Data Interpretation

RESUMEN

En el campo biomédico, los datos categóricos son frecuentemente utilizados y los métodos de análisis específicos son empleados para revelar patrones intrínsecamente existentes en los mismos. El Análisis de Correspondencias es una de estas técnicas, siendo útil en el análisis de tablas de contingencia con un gran número de clases. A pesar de que muchos artículos han explorado esta técnica, la mayoría de trabajos en revistas brasileñas se centra sólo en su interpretación gráfica. El objetivo de este trabajo es incluir estadísticas que permitan la interpretación cuantitativa de la técnica. Como ejemplo, tenemos el análisis de un mapa simétrico enriquecido con el uso de estadísticas, en el cual la inclusión de una clase de baja ocurrencia puede ser considerada como una categoría suplementaria, debido a su baja contribución a la inercia de datos. Por lo tanto, disminuye la subjetividad en el análisis, siendo posible ahora revelar la relación entre las categorías con el análisis residual, lo que no es fácil observar en los gráficos. La comparación con el análisis de componentes principales mostró sus ventajas.

Palabras-clave: Análisis Multivariante; Indicadores de Calidad de la Atención de Salud; Interpretación Estadística de Datos

Introdução

Na área de saúde, a ocorrência de variáveis qualitativas é comum, o que torna importante a aplicação de técnicas estatísticas próprias para a análise deste tipo de dado. Por exemplo, variáveis como gênero ou a ocorrência ou não de determinado atributo, ou, ainda, variáveis que possuem mais de um estado, tais como aquelas que indicam a severidade de uma doença (leve, moderado ou grave), são denominadas categóricas 1. Dada a grande quantidade de informação armazenada nos bancos de dados atuais, métodos multivariados têm sido propostos para a obtenção de informação relevante, de maneira rápida e confiável.

Um desses métodos é a Análise de Correspondência (AC). A AC permite a visualização gráfica das categorias das variáveis em uma tabela de contingência e, assim, verificar o grau de interação entre as mesmas. Os conceitos principais da AC são os perfis de linha ou coluna e a distância qui-quadrado 2 , 3. Em breves palavras, a AC é um método de análise gráfica de tabelas de contingência, e seus conceitos principais foram descritos em 1940 por Fisher 4, que os exemplificou com uma análise de associação entre cor dos olhos e tipos de cabelo de habitantes da cidade escocesa de Caithness 4 , 5 , 6. Posteriormente, já na década de 1960, Benzécri e seu grupo de colaboradores iniciaram a divulgação da AC e suas variantes sob a alcunha de L’Analyse des Données, levando ao desenvolvimento da técnica na França 2 , 6 , 7. De modo independente e em paralelo, o desenvolvimento da AC teve início nos Países Baixos e no Japão, sob títulos diferentes, como Análise de Homogeneidade e Escalonamento Dual 8. A partir de Lebart et al. 3, no início da década de 1980, a AC e sua variante, a Análise de Correspondência Múltipla (ACM), foram difundidas mais fortemente em países anglófonos.

No Brasil, a técnica é mais utilizada nos estudos de ecologia e, em menor escala, na área da saúde. Pesquisa realizada pelos autores na base de dados SciELO, utilizando-se o termo “análise de correspondência”, identificou que 156 artigos redigidos em língua portuguesa foram publicados até 2012. Desses, 52,6% foram publicados em periódicos pertencentes às Ciências Exatas e da Terra, 20,5% às Ciências Agrárias e 13,5% às Ciências da Saúde. Outros 7,7% e 5,8% foram publicados em Ciências Sociais Aplicadas e Ciências Humanas, respectivamente. O resultado da pesquisa mostrou que a AC não é muito utilizada, sendo a aplicação da técnica maior nas Ciências Exatas e da Terra havendo, porém, um crescimento evidente de seu emprego nas Ciências da Saúde no último triênio (10 artigos, de um total de 21). O primeiro trabalho publicado em periódico brasileiro na área da saúde (1992) pode ser creditado a Carvalho & Struchiner 9, que abordam a associação entre unidades de vacinação constantes do Plano Nacional de Imunização (PNI).

O objetivo deste trabalho é mostrar a AC como uma ferramenta de análise de dados categóricos não apenas limitada à análise gráfica, mas abordando também estatísticas que podem ser utilizadas na interpretação. Para isso, a teoria da AC é apresentada na seção Teoria, bem como as expressões algébricas do método, a discussão sobre a dualidade existente entre a análise dos perfis de linha e dos perfis de coluna, enquanto a seção Estatísticas contempla as estatísticas mais comumente usadas para a interpretação da AC. O artigo é concluído com um exemplo ilustrativo e a discussão sobre a contribuição que as estatísticas fornecem para a análise dos dados, sendo também realizada uma comparação do método com outra técnica, a Análise de Componentes Principais (ACP). Alguns livros-textos 2 , 3 , 5 , 6 , 10 que abordam aspectos algébricos e geométricos da AC serviram de base para este trabalho, mas que, a menos de alguma citação específica, não mais serão citados.

Teoria

Considerando-se uma tabela de contingência N de dimensões I x J, cuja soma de todas as suas células seja n ++ , define-se cada elemento do perfil de linha i em relação às categorias dispostas nas colunas j como:

em que nij é o elemento da célula i, j, e ni+ é a soma total da i-ésima linha, ou seja,

A menos que definido em contrário, entende-se que 1≤ i I e 1 ≤ j J, I, J Î N para todo o texto. Assim, o perfil da i-ésima linha pode ser considerado um vetor no espaço J - dimensional, cujas coordenadas são dadas por cada elemento rij, ou seja, pelo vetor r i = [r i 1; r i 2; ...;r i J]. Analogamente, para os perfis de coluna, tem-se:

em que

e, assim, pode-se construir a matriz A(i,:) = [r i ] composta de perfis de linha e a matriz B(:,j) = [c j ] composta de perfis de coluna. Os vetores c = [n +1;n +2;...n + J ]t e r = [n 1+;n 2+;...n I +] são os vetores de totais de coluna e linha, respectivamente. Na nomenclatura da AC, os centroides de linha (ou perfil médio de linha) e de coluna (perfil médio de coluna) podem ser expressos respectivamente por:

e

Os elementos de um centroide refletem a importância relativa de uma determinada categoria em relação às demais e, uma vez que são calculados em relação ao total da tabela, são chamados de massas. A Tabela 1 ilustra os perfis de linha de uma AC simples.

Tabela 1  - Perfis de linha em uma Análise de Correspondência simples (matriz A). A última linha representa o centroide de linha. 

Pode-se verificar que o centroide de linha é a média ponderada entre os perfis de linha e suas respectivas massas, ou seja:

Similarmente, para os perfis de coluna:

Define-se a distância qui-quadrado entre os perfis das linhas i e i como:

Utilizando-se (1), a distância qui-quadrado entre quaisquer dois perfis de linha pode ser reescrita como:

resultando que a distância qui-quadrado entre perfis de linha é a distância Euclidiana em um espaço Euclidiano com novas coordenadas. Denotando

tem-se

Sendo D c = diag(c 0) e D r = diag(r 0) as matrizes diagonais dos centroides de coluna (I x I) e linha (J x J), respectivamente, tem-se:

em que Sl é a nova matriz com a padronização da matriz de perfis de linha (I x J), e P a matriz com elementos pij. Similarmente, utilizando-se a distância qui-quadrado entre os perfis de coluna, obtém-se

e então:

Em relação ao centroide, a distância qui-quadrado do perfil de linha i pode ser representada por uma distância Euclidiana com as coordenadas:

em que  

Com base nas definições de perfil de linha e coluna, é possível verificar o princípio distributivo, no qual dois perfis semelhantes podem ser unidos em um perfil único com massa igual à soma das massas individuais relativas aos perfis considerados 2 , 3 , 11. De fato, sejam os perfis de linha r i e r i’ , com massas n i+ /n ++ e n i’+ /n ++ , respectivamente, tal que r i r i’ e, consequentemente, n i+ n i’+ e n ij n i’j . Somando-se os elementos dos perfis de linha, coluna a coluna, tem-se um novo perfil de linha, com elementos [(r i1 +r i’1 ); (r i2 + r i’2 );...;(r iJ + r i’J )] e massa (n i+ + n i’+ )/n ++ . Como são semelhantes (ou seja, suas posições no espaço são iguais ou aproximadamente iguais), a nova linha da tabela de contingência é dada por 2[n i1 ;n i2 ;...;n iJ ] e massa 2n i+ /n ++ , então a soma total de cada coluna, n +j não se altera, resultando em um mesmo centroide de linha r 0j (equação (3)). Assim, as distâncias dos perfis ao centroide de linha, dadas pela equação (11), e entre quaisquer perfis (equação (7)), não se modificam.

Os gráficos utilizando os perfis de linha, em relação às categorias da outra variável, localizadas nas colunas, ensejam uma interpretação geométrica peculiar devido ao formato da Tabela 1 (todas as linhas somam uma unidade e é uma matriz não negativa). Tal formato gera uma figura geométrica regular (ou um simplex regular) em (J - 1) dimensões para os perfis de linha 1 , 12 , 13 , 14. Uma vez que a soma dos elementos de um perfil de linha totaliza a unidade, pode-se imaginar que, se para determinado perfil de linha somente existisse uma única categoria de coluna, a massa deste perfil estaria localizada nesta categoria [ver equação (1)]. Assim, um perfil de linha fictício, com toda sua massa concentrada na J-ésima coluna, teria elementos [0;0;...;1]. Tal ponto seria um dos vértices do simplex 15 , 16. Tal sistema de representação é denominado de sistema de coordenadas baricêntricas 13.

O mais comum na disposição gráfica de vetores multivariados é utilizar a origem das próprias variáveis ou determinar uma nova origem por meio do método de mínimos quadrados, no qual a soma dos quadrados das distâncias dos pontos até os eixos é minimizada. O método computacional mais utilizado para tal minimização é o algoritmo de Decomposição por Valores Singulares (DVS), em que a matriz de perfis é fatorada em três matrizes, uma das quais diagonal com os valores singulares 17. Adicionalmente, a quantidade de valores singulares positivos indica o posto da matriz. Entretanto, na AC, a DVS é aplicada aos perfis de forma ponderada, usando-se os elementos do centroide correspondente de maneira a ressaltar a importância que cada perfil tem, e permitir que o ponto correspondente ao centroide seja a origem dos eixos cartesianos 13. A forma de padronização na AC pode ser expressa por:

sendo que, fatorando S pela DVS, tem-se:

em que U e V são as matrizes de vetores singulares à esquerda e direita, V t V = U t U = I d respectivamente, D é a matriz diagonal com os valores singulares em ordem decrescente l0 ≥ l1 3...3 λ K ≥ λ K + 1 = ... = 0, em que K é o posto da matriz S, K ≤ min {I,J} I d é a matriz identidade 17. O valores singulares elevados ao quadrado são os autovalores da matriz quadrada S t S, que traduzem a dispersão das categorias-ponto (CP) sobre a dimensão correspondente.

Define-se como coordenadas padronizadas das CPs de linha a matriz

e para as CPs de coluna a matriz

Entretanto, a apresentação mais comum na AC é utilizar as coordenadas principais das CPs de linhas e colunas no mesmo gráfico, dadas por:

para as linhas e

para as colunas.

A padronização de S conforme a equação (12) resulta que o primeiro valor singular (λ 0 ) seja unitário (e máximo) e seus correspondentes vetores singulares tenham todos os elementos positivos ou negativos 4 , 18. Representam, portanto, a solução trivial, que é descartada da análise, resultando na desconsideração da primeira coluna das matrizes F e G. Como resultado, a dimensionalidade da matriz S é dada por K = min{(I-1,(J-1))}. Assim, a AC é, simplificadamente, a análise de duas nuvens de pontos, a nuvem de CPs de linhas e a nuvem de CPs de colunas.

Análise dual

Desenvolvendo a equação (16) que rege as coordenadas principais das CPs de linhas, e utilizando (13) e (14), obtém-se:

e, por consequência, sabendo-se ainda que , e substituindo-se V por (equações (15) e (17)), tem-se:

em que