versão impressa ISSN 0102-311Xversão On-line ISSN 1678-4464
Cad. Saúde Pública vol.34 no.6 Rio de Janeiro 2018 Epub 21-Jun-2018
http://dx.doi.org/10.1590/0102-311x00116317
Tradicionalmente, las directrices clínicas se elaboran a partir del consenso de opiniones de especialistas. En los últimos años, la magnitud de los beneficios del rastreo mamográfico ha sido cuestionada, debido a los sesgos detectados en los ensayos clínicos que popularizaron la propagación de esta práctica. Paralelamente, el creciente cuerpo de evidencias sobre daños asociados al rastreo mamográfico también demandaba un nuevo enfoque que considerase las incertidumbres sobre los beneficios y un balance entre ventajas y posibles daños. Este artículo tiene como objetivo presentar el proceso de elaboración de las nuevas directrices para la detección precoz del cáncer de mama en Brasil, detallando los métodos utilizados, así como sus implicaciones para las nuevas recomendaciones. El nuevo enfoque metodológico presenta como pilares la realización de revisiones sistemáticas de la literatura, la evaluación de la validez de las evidencias y el balance entre riesgos y beneficios de cada intervención, garantizando una mayor transparencia, reproductibilidad y validez en el proceso de elaboración. Otra innovación de las nuevas diretrices es la presencia de recomendaciones dirigidas a casos con signos y síntomas sospechosos. Las ventajas del enfoque adoptado, frente al modelo tradicional de consenso por parte de los especialistas, se discute en detalle, así como los límites y desventajas de los métodos utilizados. Asimismo, se discuten las implicaciones de diversas decisiones, como las decisiones en relación con diseños de estudio, resultados sobre efectividad del rastreo, así como la definición de sobrediagnóstico y forma de cálculo.
Palabras-clave: Neoplasias de la Mama; Detección Precóz del Cáncer; Tamizaje Masivo; Mamografia; Guías de Práctica Clínica como Asunto
O papel essencial de uma diretriz clínica é auxiliar uma tomada de decisão baseada em evidências, tanto para os profissionais quanto para os usuários e gestores dos sistemas de saúde. Tradicionalmente, diretrizes clínicas, também conhecidas como guias de prática clínica ou protocolos clínicos, são elaboradas a partir de consenso de opiniões de especialistas ou são baseadas em protocolos clínicos de serviços considerados de excelência. Mesmo em diretrizes que incorporam de forma incipiente alguns aspectos baseados em evidências, como certa formalização do processo de busca na literatura e uso de classificação de níveis de evidência, é comum que essas evidências sejam escolhidas por conveniência, para confirmar a prática vigente ou a opinião do grupo elaborador das recomendações.
Nos últimos anos, houve, no Ministério da Saúde brasileiro, um esforço no sentido de elaboração de diretrizes clínicas e superação do modelo hegemônico no país, baseado principalmente em opiniões de especialistas e revisões narrativas da literatura. Esse esforço resultou na criação dos chamados “Protocolos Clínicos e Diretrizes Terapêuticas”, que tiveram sucesso tanto no aumento do padrão de qualidade vigente no país, quanto na publicação de uma ampla gama de diretrizes sobre temas diversos em curto espaço de tempo e com escopo geralmente tão grande a ponto de cobrir boa parte da linha de cuidado de cada doença abordada. Ainda assim, a análise de uma amostra aleatória desses protocolos ministeriais com o uso do instrumento AGREE II demonstrou que ainda existia muito espaço para melhorias no processo de elaboração 1. As novas diretrizes para a detecção precoce do câncer de mama no Brasil utilizaram, de forma pioneira no país, um método de elaboração baseado em revisões sistemáticas da literatura e na avaliação do equilíbrio entre benefícios e danos de cada intervenção, de acordo com as melhores evidências disponíveis 2. Este artigo tem por objetivo apresentar o processo de elaboração das novas diretrizes para detecção precoce do câncer de mama no Brasil, detalhando os métodos utilizados, bem como suas implicações para as novas recomendações.
Após a criação do Sistema Único de Saúde (SUS), as recomendações governamentais para a detecção precoce do câncer de mama foram respaldadas primeiramente pelo Programa Viva Mulher (1996 até 2003), que recomendava como estratégias para detecção precoce do câncer de mama no Brasil o rastreamento mensal com autoexame das mamas e exame clínico anual. Esses procedimentos eram realizados por médicos ou enfermeiros, em todas as mulheres, especialmente naquelas com quarenta anos ou mais, reservando à mamografia um papel de confirmação diagnóstica 3. Segundo uma publicação do Instituto Nacional de Câncer (INCA) de 2002, a mamografia deveria ser utilizada prioritariamente para fins diagnósticos, solicitada por médico especialista diante de exames físicos anormais ou anualmente a partir dos 40 anos para mulheres com alto risco de desenvolvimento do câncer de mama 4,5. Segundo essa mesma publicação, todas as mulheres com idades entre 50 e 69 anos deveriam idealmente se submeter todos os anos a um exame de mamografia, mas, em função da disponibilidade de recursos, a mamografia deveria ser solicitada apenas por médico especialista diante de exames físicos anormais 4,5. Essas recomendações traduziam um posicionamento institucional na época sem, no entanto, qualquer método formal para elaboração de diretrizes.
Com o intuito de construir um documento que aprofundasse mais o tema e, simultaneamente, envolvesse mais atores no seu processo de elaboração, o Ministério da Saúde, por meio do INCA, da Área Técnica da Saúde da Mulher e com o apoio de sociedades médicas, organizou a Oficina de Trabalho para Elaboração de Recomendações ao Programa Nacional de Controle do Câncer de Mama, realizada em novembro de 2003. O evento teve a participação de representantes de diversas áreas do Ministério da Saúde, gestores estaduais, pesquisadores, professores universitários, representantes das sociedades de especialidades médicas e entidades da sociedade civil. O fruto dessa oficina foi um documento de consenso que definiu as diretrizes nacionais para a detecção precoce do câncer de mama de 2004 até setembro de 2015 6. O método utilizado para elaboração de recomendações foi o de consenso dos participantes, e seu amplo escopo incluía prevenção primária, detecção precoce, diagnóstico, tratamento e cuidados paliativos. Nesse documento de consenso, pela primeira vez, o rastreamento mamográfico foi recomendado como estratégia de saúde pública pelo Governo Federal 6. Essa recomendação foi reforçada pela publicação do Pacto pela Vida, em 2006, que incluía em suas diretrizes operacionais uma meta de ampliação da cobertura do rastreamento mamográfico para 60% da população-alvo 7 e, posteriormente, pelo Plano de Enfrentamento das Doenças Crônicas, que ampliou essa meta para 70% até 2022 8. Ao instituir a população-alvo de 50 a 69 anos e a periodicidade bienal, embora não citassem explicitamente as evidências que embasaram cada recomendação, as diretrizes do consenso de 2004 estavam alinhadas com as da Organização Mundial da Saúde (OMS) e as de países com tradição de programas de rastreamento, sobretudo na Europa 9,10.
Embora o consenso de 2004 tenha trazido como novidade a não recomendação do ensino do autoexame das mamas, manteve-se a recomendação tradicional de rastreamento anual com exame clínico das mamas em mulheres com 40 anos ou mais 6. Embora as evidências para essa recomendação sejam muito frágeis 11, outras semelhantes são encontradas em diretrizes de países em desenvolvimento da América Latina, África e Ásia 3,10,12,13, geralmente incluindo uma população-alvo com menos de 50 anos. Critérios indiretos, como estrutura etária da população mais jovem que na Europa e na América do Norte, maior dificuldade de acesso a mamografia e menor acurácia desse exame em mulheres jovens, bem como detecção habitualmente mais tardia dos tumores nesses países são as justificativas apresentadas para essa recomendação de rastreamento anual com exame clínico.
Com importantes programas nacionais de rastreamento sendo implantados em diversos países europeus durante a década de 1980 e a publicação de uma metanálise dos ensaios clínicos suecos em 1993, demonstrando uma redução relativa de mortalidade por câncer de mama de 29%, a aceitação científica do rastreamento mamográfico atingiu o seu auge 14. Contudo, no início da década passada, uma revisão sistemática da Colaboração Cochrane identificou diversos vieses na maior parte dos ensaios clínicos de rastreamento mamográfico que poderiam ter superestimado as estimativas de efeito na redução da mortalidade por câncer de mama 15, iniciando um longo período de controvérsias sobre o rastreamento, o que perdura até os dias atuais. Alguns desses vieses envolviam o processo de randomização, incluindo geração da sequência aleatória, sigilo de alocação e evidências de desbalanço nos grupos de comparação na linha de base, comprometendo a comparabilidade entre grupos em alguns ensaios 16. A maior parte dos ensaios também poderia ter sido afetada por viés na aferição do desfecho mortalidade por câncer de mama, devido à ausência de cegamento dos responsáveis pela aferição da causa mortis a respeito da alocação da intervenção (rastreamento). A presença de vieses em alguns desses estudos é também indicada pelo fato de que ensaios clínicos mais antigos com importante contaminação tenham apresentado maiores efeitos na redução da mortalidade, os quais devem ter sido superestimados 16.
O viés na estimativa de eficácia do rastreamento seria maior ainda se considerados estudos observacionais, pois poderiam introduzir ainda outros vieses, como, por exemplo, do rastreado saudável, uma vez que quem aceita ser rastreado geralmente é mais saudável, mais atento à saúde e adere melhor a recomendações médicas. Existem evidências de que quem aceita o rastreamento mamográfico tem menor risco de morrer por outras causas não relacionadas ao câncer de mama ou ao rastreamento 17. Por isso, dois pontos principais para a avaliação da eficácia do rastreamento nas novas diretrizes seriam a inclusão apenas de resultados de revisões sistemáticas de ensaios clínicos sobre eficácia do rastreamento mamográfico e avaliação da qualidade dos estudos incluídos.
Além desse questionamento sobre a eficácia do rastreamento, nos últimos anos, foi se acumulando um crescente corpo de evidências sobre danos do rastreamento mamográfico. Os mais graves e importantes danos envolvidos são o sobrediagnóstico (overdiagnosis) e o sobretratamento (overtreatment) 18. O sobrediagnóstico refere-se ao diagnóstico de casos de câncer de mama que nunca iriam se manifestar clinicamente, caso não fossem detectados pelos exames de rotina em mulheres assintomáticas (rastreamento). Não são, portanto, casos falso-positivos, pois possuem os critérios histopatológicos de câncer de mama, ou seja, foram inicialmente detectados na mamografia e, subsequentemente, confirmados por biópsia. Trata-se de uma limitação do estado da arte na determinação do prognóstico do câncer de mama. As pesquisas atuais sobre o tema indicam que o sobrediagnóstico envolve tanto casos de câncer de mama in situ quanto invasivos 19. Um estudo observacional, com dados do Surveillance, Epidemiology, and End Results (SEER), estimou que 31% de todos os casos de câncer diagnosticados nos Estados Unidos, em mulheres com quarenta anos ou mais, corresponderam ao sobrediagnóstico 20. Essa proporção provavelmente seria superior à encontrada nos ensaios clínicos canadenses, se os pesquisadores tivessem considerado apenas os cânceres diagnosticados pelo rastreamento. Características biológicas do próprio tumor - muitas delas ainda desconhecidas pela ciência - refletem-se nesse comportamento não progressivo ou pouco agressivo. No nível individual, não é possível saber com certeza se um caso de câncer de mama descoberto no rastreamento é ou não sobrediagnóstico, gerando o sobretratamento da maioria desses casos. Assim, há a instituição de terapias desnecessárias, sem benefício algum para as mulheres, podendo, ainda, trazer danos à saúde, em função dos riscos inerentes às terapias existentes.
A inclusão dos danos associados ao rastreamento é outro aspecto inovador das novas diretrizes, especialmente no contexto nacional, uma vez que esse tipo de desfecho raramente é considerado em diretrizes clínicas. Uma revisão sistemática recente constatou que 69% das diretrizes identificadas para prevenção ou detecção precoce de câncer não quantificaram os danos e benefícios ou os apresentaram de forma assimétrica 21. Portanto, embora a inclusão de desfechos de dano seja uma prática recomendada pelo GRADE (Grading of Recommendations, Assessment, Development and Evaluation), sua implementação em diretrizes de detecção precoce de câncer ainda é incipiente, mesmo no contexto internacional. Uma das possíveis explicações é que, historicamente, os danos do rastreamento não foram investigados adequadamente nem mesmo nos ensaios clínicos sobre o tema. Em uma revisão que avaliou 57 ensaios clínicos de rastreamento, mesmo os danos mais importantes como sobrediagnóstico e resultados falso-positivos só foram quantificados em respectivamente 7% e 4% dos estudos 22.
As novas diretrizes incluíram também a avaliação de métodos alternativos de rastreamento muito difundidos na prática clínica, como o exame clínico das mamas, ensino do método padronizado de autoexame das mamas e a ultrassonografia mamária, que também precisavam de uma avaliação mais rigorosa quanto a eficácia e riscos. Isso também se aplica aos métodos emergentes ou que potencialmente poderiam ser usados no rastreamento do câncer de mama, tais como ressonância nuclear magnética, tomossíntese mamária e termografia.
Considerando esse corpo de evidências, as novas diretrizes deveriam considerar ainda o balanço entre esses riscos e os possíveis benefícios de cada proposta de rastreamento avaliada. Outra inovação importante é que as recomendações deveriam ser acompanhadas por uma estimativa do nível de certeza associado a cada uma delas. O sistema GRADE foi escolhido pelo Comitê Gestor das diretrizes para síntese e graduação da qualidade das evidências, além de força das recomendações 23. Algumas das vantagens da abordagem proposta pelo GRADE sobre os outros métodos existentes para formulação de recomendações são a definição da qualidade das evidências para cada desfecho e o fato de que essa avaliação não está somente relacionada ao desenho do estudo. Outra grande vantagem é que, no GRADE, as recomendações não dependem apenas da qualidade das evidências, mas incluem ainda o balanço entre riscos e possíveis benefícios. Por meio desse sistema, mesmo evidências oriundas de ensaios clínicos randomizados podem ter seu nível de evidência reduzido se forem identificadas as seguintes limitações: risco de viés, imprecisão das medidas de efeito, inconsistência (ou heterogeneidade), natureza indireta das evidências (como desfechos substitutos ou diferenças entre a população de estudo e a das diretrizes) ou viés de publicação 24.
Outra inovação das novas diretrizes foi a divisão das estratégias de detecção precoce em dois campos distintos: rastreamento e diagnóstico precoce. O rastreamento refere-se à aplicação de testes em pessoas assintomáticas, ao passo que diagnóstico precoce refere-se às estratégias destinadas a mulheres com sinais e sintomas sugestivos de câncer de mama 10. Existem evidências de que atrasos de mais de três meses entre o começo dos sintomas e o início do tratamento do câncer de mama resultam em uma diminuição média de 5% no tempo de sobrevida das pacientes 25. A ênfase exagerada apenas em rastreamento presente em outras diretrizes parte da falsa premissa de que, com uma ampla cobertura do rastreamento mamográfico, os casos sintomáticos iriam praticamente desaparecer, o que não se mostrou real, mesmo em países com programas nacionais de rastreamento bem consolidados 25.
As estratégias de diagnóstico precoce podem assumir diversas formas, mas devem estar baseadas no seguinte tripé: (1) conscientização de sinais e sintomas de câncer pela população, acompanhada de adequado acesso dos casos sintomáticos aos serviços de saúde; (2) avaliação clínica e confirmação diagnóstica com qualidade e em tempo apropriado; (3) acesso ao tratamento adequado nos casos confirmados de câncer, com qualidade e em tempo oportuno 10. As duas primeiras dimensões dessas estratégias foram incluídas no escopo das novas diretrizes e traduzidas em três diferentes estratégias. A primeira delas foi a chamada estratégia de conscientização (breast awareness), baseada na promoção de autoconhecimento a respeito das características das próprias mamas em diferentes fases da vida, reconhecendo o que é normal e habitual para cada mulher e quais são os achados suspeitos de câncer de mama, visando a agilizar e a qualificar a procura pelo serviço de saúde. A segunda estratégia escolhida para avaliação foi a identificação de sinais e sintomas suspeitos na atenção primária e encaminhamento prioritário para confirmação diagnóstica, buscando um fluxo de encaminhamento para a atenção secundária que evite reconsultas em casos de forte suspeita clínica de câncer de mama. A terceira estratégia foi a de confirmação diagnóstica em um único serviço, que visa diminuir o tempo entre as diversas etapas da confirmação diagnóstica dos casos sintomáticos até a definição final do diagnóstico, incluindo avaliação clínica, histológica e por imagem.
As etapas da elaboração das diretrizes incluem a formulação das perguntas de pesquisa, busca, seleção, avaliação da qualidade e síntese das evidências, elaboração das recomendações e produção do texto final. Contudo, antes do início da elaboração propriamente dita, o primeiro passo deve ser a formação do chamado Comitê Gestor. Nesse momento, houve a necessidade da primeira quebra de paradigma relativo ao modelo tradicional de uma equipe que apenas acompanhava administrativamente o trabalho de especialistas, para um Comitê Gestor que fosse capaz de definir os métodos que seriam utilizados em cada etapa da elaboração das diretrizes, de forma a inovar e superar o padrão de elaboração vigente. Foi formado, então, um Comitê Gestor composto por membros de diversas áreas do Ministério da Saúde e por dois membros externos, pertencentes à academia, com o objetivo de formar um grupo com expertise em revisões sistemáticas e medicina baseada em evidências, de forma a ser capaz de definir as linhas gerais do escopo e os métodos para a elaboração das diretrizes. Em seguida, foi formado um Grupo Elaborador, que agregasse conhecimento sobre o tema “detecção precoce do câncer de mama” e sobre o método a ser usado, ou seja, conhecimentos para realização de revisões sistemáticas de literatura e avaliação crítica das evidências. Alguns membros do comitê gestor (50% do total) participaram também como membros do grupo elaborador, sendo que dois desses membros tiveram também um papel de coordenação do processo de elaboração.
Na ausência de uma uniformização de métodos para a elaboração de diretrizes no Brasil, a opção para padronizar os trabalhos e homogeneizar o conhecimento no grupo elaborador foi o de criar um manual de métodos. Por seu pioneirismo no país, esse manual serviu também de base para a produção de um manual de diretrizes metodológicas para a elaboração de diretrizes clínicas do Ministério da Saúde 24.
Com relação à independência editorial, uma das estratégias adotadas foi a inclusão de participantes externos ao Ministério da Saúde, tanto no Comitê Gestor, quanto no grupo elaborador. Nenhuma recomendação proposta pelo grupo elaborador foi mudada pelo Comitê Gestor, e em nenhum momento houve interferência externa no processo de elaboração. A interferência externa dos gestores do Ministério da Saúde deu-se apenas no sentido de solicitar maior amplitude do escopo das diretrizes no início do processo e um prazo exíguo de elaboração. Essas duas questões tinham clara ligação com a expectativa gerada pelo modelo tradicional de elaboração de diretrizes clínicas que permitiam um escopo muito amplo e um tempo de elaboração muito reduzido, como havia sido o caso do consenso de 2004.
Dessa forma, o principal problema passou a ser a falta de envolvimento direto de outros atores importantes, como grupos da sociedade civil organizada e sociedades de especialidades médicas, que tinham acabado de lançar uma diretriz própria, baseada na opinião de especialistas. A solução encontrada foi utilizar o instrumento da consulta pública, em que todas as contribuições desses atores seriam avaliadas com os mesmos métodos e rigor que a de qualquer outra evidência identificada durante o processo de elaboração.
Para o gerenciamento de conflito de interesses, foram tomadas três providências principais. A primeira foi adotar o método de seleção de evidências a partir de revisão cega em pares, com casos discordantes sendo avaliados por um terceiro revisor independente, nos mesmos moldes do que é feito em revisões sistemáticas tradicionais. Esse procedimento também teve como objetivo diminuir a possibilidade de erros no processo de seleção. O outro procedimento foi não envolver no Comitê Gestor e no grupo elaborador especialistas que tivessem interesse econômico na realização de procedimentos relacionados diretamente ao rastreamento, o que geraria um inevitável conflito potencial de interesses. Esse foi considerado um procedimento importante, uma vez que o grupo elaborador precisaria estar livre para recomendar, inclusive, o abandono do rastreamento mamográfico. Existem evidências de que a inclusão desse perfil de especialistas na elaboração de diretrizes de rastreamento do câncer de mama está associada a maior probabilidade de recomendações favoráveis ao rastreamento mamográfico 26. Essa questão pode ser um desafio para outras diretrizes nas quais não for possível, em termos de expertise, formar um grupo elaborador sem esse tipo de profissional. Para esses casos, foi elaborada uma regra de gerenciamento de conflito de interesses, que pode ser encontrada em outra publicação 24. O terceiro procedimento adotado foi o registro e posterior publicização de potenciais conflitos de interesses de todos os participantes, conjuntamente com as diretrizes, bem como o detalhamento da participação de cada membro da equipe 2.
Após a formação do Comitê Gestor, o passo seguinte deve ser a definição do escopo, que é uma etapa chave no processo de elaboração, uma vez que escopos muito amplos podem dificultar a elaboração de diretrizes baseadas em evidências e comprometer a qualidade, em função da carga de trabalho envolvida. Foram excluídos do escopo temas como prevenção primária, avaliação do risco de desenvolvimento de câncer, condutas para população de alto risco, confirmação diagnóstica, prognóstico, estadiamento, tratamento e cuidados paliativos. Aspectos relacionados a custos também não foram incluídos. Embora a dimensão custo seja um dos critérios que podem ser utilizados para formulação de recomendações pelo sistema GRADE, o Comitê Gestor optou por não incluí-lo, para que ficasse claro que os únicos critérios utilizados nas recomendações seriam a qualidade científica das evidências e o balanço entre riscos e possíveis benefícios para a saúde da população, associado a cada intervenção. Ou seja, o foco foi a saúde, e não o custo financeiro, muito embora esse último também seja uma dimensão relevante do ponto de vista do sistema de saúde e, portanto, essa opção pode ser considerada uma limitação dessas diretrizes.
Com base no escopo das diretrizes, foram formuladas 13 perguntas estruturadas de pesquisa, contendo os seguintes critérios de elegibilidade: população, intervenção, comparação, desfecho e desenho de estudo (PICOS). As fontes de informação utilizadas foram: MEDLINE (via PubMed), LILACS (via BVS Prevenção e Controle do Câncer), Embase e Cochrane Library (incluindo, pelo menos, Revisões Sistemáticas da Cochrane, DARE e Cochrane Central Register of Contolled Trials - CCTR). A seguir, foram elaboradas estratégias de busca a partir desses critérios para cada pergunta ou para um conjunto de intervenções agrupadas pela mesma natureza da intervenção (mamografia e outros exames de imagem). As perguntas de pesquisa, estratégias de busca e critérios de elegibilidade PICOS estão disponíveis em detalhes (ver Material Suplementar: http://cadernos.ensp.fiocruz.br/csp/public_site/arquivo/material-suplementar-portugues_3932.pdf). Diferentemente de uma revisão sistemática clássica, foi priorizada a seleção de sínteses da literatura, no formato de revisões sistemáticas. Estudos primários só foram incluídos na ausência de revisões sistemáticas ou caso essas revisões estivessem desatualizadas. Essa estratégia foi particularmente importante em questões com pouca produção científica, como no caso das perguntas de diagnóstico precoce. A busca de evidências foi realizada em conjunto com duas bibliotecárias estrategistas/referencistas, para garantir abrangência das fontes consultadas, equilíbrio da revocação e precisão dos registros recuperados para atender à especificidade das perguntas 27.
A sistematização do processo das buscas por evidências considerou a aplicação de filtros validados por desenho de estudo, gestão das referências localizadas, além da documentação de todo o processo para garantir transparência, reprodutibilidade e atualização da diretriz. A participação desses profissionais no desenvolvimento metodológico de diretrizes também é novidade na área de informação em saúde no Brasil, e está associada à melhoria da qualidade das estratégias de busca utilizadas em revisões sistemáticas na literatura internacional 28. Nas perguntas de rastreamento, os desfechos não foram utilizados na composição das estratégias de busca, para que a sensibilidade das estratégias aumentasse. Foi elaborada uma análise conceitual para representação e tradução dos principais termos das variáveis de cada pergunta. Esses blocos conceituais incluíram termos extraídos dos vocabulários controlados das bases de referências utilizadas em associação com termos livres nos campos “título” e/ou “resumo”. A utilização de termos livres com sinônimos dos vocabulários controlados ou termos não cobertos teve como finalidade aumentar a sensibilidade das estratégias de busca. A combinação de termos livres com termos MeSH (Medical Subject Headings) é essencial para recuperar artigos novos e atualizados recém-inseridos e também aqueles em que não há uma indexação nos registros do PubMed 29. Os desenhos de estudo (ensaios controlados randomizados e revisões sistemáticas) foram representados nas estratégias de busca, por meio de filtros validados para esse tipo de desenho 30.
A seleção das 3.488 referências recuperadas nas buscas foi feita pela equipe de elaboração, por meio da avaliação dos resumos (abstracts) e dos títulos dos artigos e, ainda, por avaliação de duplicidade entre as bases. A seleção dos títulos e resumos foi realizada em duplas, para garantir que cada referência fosse avaliada por dois revisores de forma independente e cega. Nessa etapa, os títulos e resumos foram classificados como eliminados ou não eliminados. Os artigos classificados como não eliminados foram recuperados na íntegra, para uma avaliação mais detalhada e sua consequente inclusão ou exclusão como evidência para as diretrizes. No caso de discordância entre especialistas, um terceiro membro da equipe foi convocado para classificar o artigo.
Os critérios de inclusão e exclusão previamente definidos foram utilizados na seleção dos artigos relacionados às questões clínicas definidas. Esses critérios foram aplicados duas vezes: primeiramente no título e na análise dos resumos e, posteriormente, na fase de avaliação do artigo completo. Esse processo de dois estágios é semelhante ao usado na elaboração de revisões sistemáticas e foi projetado para minimizar os erros, ser eficiente, transparente e reprodutível. A seleção de cada artigo completo seguiu os critérios de inclusão/exclusão de artigos previamente definidos no protocolo de revisão, seguindo o que ficou definido nas perguntas no formato PICOS.
No final do processo de seleção, os artigos restantes tiveram sua qualidade criticamente avaliada, por meio do uso de critérios definidos pelo Comitê Gestor para cada desenho de estudo, sendo o principal deles apresentado no Quadro 1. O uso desses instrumentos serviu para apoiar a avaliação do risco de viés pelo GRADE. Após essa etapa, o corpo de evidências relativo a cada desfecho teve seu nível de evidência avaliado segundo os critérios do sistema GRADE, conforme descrito anteriormente, e foi uma das bases para a elaboração das recomendações, ao lado do balanço entre riscos e benefícios de cada intervenção. Artigos não recuperados nas buscas, mas que eram de conhecimento prévio dos especialistas convidados, foram tratados da mesma forma que artigos recuperados nas buscas previamente descritas, podendo ser ou não incluídos no corpo de evidências para determinada questão clínica. Por fim, as recomendações foram elaboradas segundo o sistema GRADE, com a classificação da qualidade das evidências e da força das recomendações das diretrizes clínicas 23, levando-se em conta não apenas a qualidade do corpo das evidências para cada desfecho, mas também o balanço entre riscos e benefícios da intervenção em questão.
Quadro 1 Critérios usados para avaliação de qualidade de revisões sistemáticas.
DOMÍNIO | PERGUNTA PARA AVALIAÇÃO | COMPLEMENTO |
---|---|---|
Desenho | O desenho dos estudos primários incluídos na revisão é o mesmo definido para a questão PICOS (população, intervenção, comparação, desfecho e desenho de estudo)? | |
Busca | A seção de métodos descreve como todos os estudos relevantes foram encontrados e selecionados? | |
Foram feitas buscas em todas as bases de dados relevantes? | ||
Foi feita busca na “literatura cinzenta”? | ||
Foi feita busca manual de revistas? | ||
Os autores checaram bibliografia de todos os artigos identificados? | ||
Foram incluídos artigos em todas as línguas? | ||
Os autores da revisão entraram em contato com autores, com o objetivo de ter acesso a estudos não publicados? | ||
Seleção | Os critérios de seleção dos estudos estão descritos? | |
A seleção foi feita por pelo menos dois avaliadores independentes (“cegos”)? | ||
Validade dos estudos primários | A seção de métodos descreve como a validade de cada estudo foi avaliada (potenciais vieses)? | |
A maioria dos estudos selecionados apresentou... | Alto risco de viés? | |
Moderado risco de viés? | ||
Baixo risco de viés? | ||
Viés de publicação | Menos de 10 estudos foram selecionados? | |
Caso mais de 9 estudos tenham sido selecionados, a presença de viés de publicação foi investigada? | ||
Como a presença de viés de publicação foi investigada... | Gráfico de funil? | |
Regressão de Egger? | ||
Método trim and fill? | ||
Heterogeneidade | Os resultados dos estudos foram todos na mesma direção? | |
Houve teste estatístico para verificar se os resultados dos estudos foram heterogêneos? | ||
Houve heterogeneidade estatisticamente significante? | ||
Em caso de heterogeneidade estatisticamente significante, ela foi discutida e explorada pelos autores por meio de análise de subgrupos ou metarregressão? | ||
Descreva o valor de I2. |
De todo o complexo processo de elaboração, talvez a etapa que tenha mais influenciado nas recomendações foi a da formulação de perguntas com os respectivos critérios de elegibilidade, justamente uma etapa que não costuma estar presente em diretrizes que usam métodos tradicionais. Um exemplo foi a decisão de restringir o desenho de estudo a ensaio randomizado nas perguntas relativas à eficácia de estratégias de rastreamento. Essa restrição foi fundamental para controlar vieses provavelmente presentes em estudos observacionais, especialmente viés de seleção e também fatores de confusão, sejam eles conhecidos ou não.
Outro aspecto crítico abordado nessa etapa foi a escolha dos desfechos para cada pergunta de pesquisa. Na avaliação da eficácia do rastreamento do câncer de mama, desfechos tradicionais em oncologia e clinicamente relevantes, como tempo de sobrevida e distribuição de estadiamento, não são válidos. Isso se dá por resultarem em inferências espúrias sobre a eficácia do rastreamento, por serem suscetíveis à existência de sobrediagnóstico e a vieses de duração e de tempo de antecipação 31. A falta de validade (risco de viés) desses desfechos ocorre mesmo quando são usados em ensaios clínicos controlados e randomizados de boa qualidade, uma vez que esses vieses são inerentes ao rastreamento. O câncer de mama é uma doença heterogênea e pode se apresentar de diversas formas, mais agressivas ou indolentes clinicamente, dependendo de diversas características biológicas do tumor. As formas menos agressivas têm longo período assintomático e, por conseguinte, possuem maior probabilidade de serem identificadas pelo rastreamento. Quando comparadas mulheres que tiveram câncer de mama identificado no rastreio com aquelas cujo câncer foi identificado por meio de sinais e sintomas, existe uma tendência de os tumores serem mais agressivos neste último grupo. O viés de duração ocorre quando se avaliam desfechos como sobrevida nesses dois grupos, e acredita-se que a diferença no desfecho ocorre por causa da realização de rastreamento e do tratamento dos casos diagnosticados, quando, de fato, o prognóstico do primeiro grupo seria melhor, mesmo na ausência dessas intervenções (inferência causal espúria). A realização de rastreamento introduz obrigatoriamente um tempo de antecipação na data do diagnóstico de câncer. Por esse motivo, quando comparadas mulheres que tiveram câncer de mama identificado no rastreamento com aquelas com câncer identificado por meio de sinais e sintomas, o grupo rastreado terá melhor sobrevida, em função do tempo de antecipação, mesmo no caso de não haver efeito do rastreamento no aumento da sobrevida real das mulheres. Nesses casos, na verdade, o rastreamento não estaria oferecendo um tempo adicional de vida, mas um tempo antecipado de convívio com o diagnóstico de câncer de mama. Quando se utiliza tempo de sobrevida como desfecho em estudos de rastreamento, introduzem-se os vieses de tempo de antecipação e de duração, e as conclusões sobre a eficácia do método de rastreamento são espúrias.
Embora a seleção do desfecho mortalidade controlasse esses vieses, ainda seria necessário selecionar qual seria o desfecho considerado como “crítico” pelo GRADE: mortalidade geral ou específica por câncer de mama. Pelo GRADE, os desfechos considerados como críticos são muito influentes na determinação do nível de evidência global para cada pergunta de pesquisa. A redução da mortalidade por câncer de mama pode não se traduzir em uma experiência real de prolongamento da vida, caso o rastreamento aumente o risco de morte por outras causas, além de ser mais susceptível a vieses. Ou ainda, como as mortes por outras causas são muito mais frequentes, uma possível redução na mortalidade específica por câncer de mama fica “diluída”, a ponto de tornar o poder estatístico dos estudos insuficiente para detectar diferença significativa na mortalidade geral, apesar do número elevado de participantes rastreadas. A opção metodológica adotada foi considerar a mortalidade específica por câncer de mama como desfecho crítico e penalizar a qualidade da evidência, em virtude da possibilidade da presença de vieses. Essa penalização e o balanço limítrofe entre riscos e benefícios do rastreamento mamográfico 11 foram os dois fatores que resultaram em recomendações fracamente favoráveis ao rastreamento, mesmo na população-alvo de 50 a 69 anos. Para mulheres de outras faixas etárias, a imprecisão das estimativas de efeito nas metanálises resultou em penalização adicional na qualidade das evidências, em virtude de imprecisão das estimativas de efeito (intervalos de confiança amplos). Se a mortalidade geral fosse considerada como o único desfecho crítico, a conclusão seria pela ausência da evidência de eficácia do rastreamento mamográfico, o que resultaria em recomendação contrária ao rastreamento em qualquer faixa etária, tendo em vista que se refutariam as evidências de benefícios e que o rastreamento está associado a diversos danos à saúde.
Outra definição metodológica importante diz respeito à não incorporação de resultados de longo prazo de seguimento após o término dos ensaios clínicos de rastreamento mamográfico. Por isso, as diferenças de data das revisões sistemáticas selecionadas sobre esse tema não foram consideradas um problema relevante, uma vez que os ensaios clínicos de rastreamento mamográfico são antigos e seus resultados originais já foram publicados há tempos, sendo que o mais recente deles teve seus resultados publicados em 2006 e se referia apenas a mulheres na faixa etária de 40 a 49 anos (UK Age Trial). Por isso, também não é esperado que haja grande variabilidade nos resultados das revisões sistemáticas selecionadas, embora haja datas diferentes. A inclusão de resultados mais recentes de seguimento após o término do estudo (muitas vezes décadas depois) aumenta o problema da contaminação do grupo controle pelo rastreamento e tem a tendência de diluir o seu efeito, muito embora essa diminuição seja pequena 32. O mesmo ocorre com as estimativas de sobrediagnóstico, ou seja, a contaminação do grupo controle tende a diluir sua magnitude 33. Atualmente já existem evidências de que o tempo de antecipação com o rastreamento é de cerca de menos de quatro anos (geralmente de um ano) e que, em cinco anos após o término dos ensaios clínicos, já é possível ter estimativas confiáveis da proporção de sobrediagnóstico 34,35. O que, de fato, cria discrepâncias importantes no cálculo do sobrediagnóstico é o denominador utilizado para cálculo 34. Nas presentes diretrizes, optamos pelo uso do total de cânceres detectados pelas mamografias de rastreamento como denominador, uma vez que denominadores maiores, como o total de cânceres detectados no grupo experimental em longos períodos de seguimento após o término dos estudos, diluem muito as estimativas de sobrediagnóstico 34.
As principais vantagens das diretrizes baseadas em evidências em relação ao modelo tradicional de elaboração baseado em consenso entre especialistas são maior transparência, reprodutibilidade, clareza da apresentação e controle do risco de viés 36. Essas qualidades permitem que seja possível ao leitor identificar como as evidências foram buscadas, selecionadas e utilizadas para gerar recomendações. As principais diferenças metodológicas entre a abordagem adotada nesta e em outras diretrizes nacionais sobre detecção precoce de câncer de mama estão sintetizadas no Quadro 2.
Quadro 2 Comparação de métodos entre diretrizes brasileiras para detecção precoce de câncer de mama.
Critérios relativos ao rigor dos métodos de elaboração, de transparência e reprodutibilidade do processo | Consenso sobre câncer de mama de 2004 * | Novas diretrizes de três sociedades médicas brasileiras ** | Novas diretrizes nacionais*** |
---|---|---|---|
Houve busca sistemática na literatura? | Não | Não | Sim |
Os critérios de elegibilidade para seleção de artigos foram explicitados? | Não | Não | Sim |
Houve seleção cega em duplas dos artigos? | Não | Não | Sim |
Os principais riscos das intervenções avaliadas foram explicitamente considerados nas recomendações? | Não | Não | Sim |
Foram feitas considerações sobre o tamanho do efeito dos benefícios e riscos para fins de recomendações? | Não | Não | Sim |
As incertezas existentes (especialmente significância estatística e risco de viés) foram consideradas nas recomendações? | Não | Não | Sim |
Os conflitos de interesses estão relatados? | Não | Não | Sim |
* Instituto Nacional de Câncer 6;
** Urban et al. 41;
*** Migowski & Dias 2.
O método de diretrizes baseadas em evidências teria - ao menos em tese - um apelo ao profissional de saúde, em virtude de sua maior confiabilidade. Contudo, o termo “evidência” encontra-se desgastado, e seu significado ainda é pouco claro para a maioria desses profissionais. De fato, a opinião de especialistas é uma fonte de evidências, assim como o resultado de um estudo escolhido por conveniência também o é. Isso levou a um desgaste do termo “baseado em evidência” e a uma dificuldade de comunicação para o público de usuários de diretrizes (profissionais de saúde, gestores ou população em geral), em virtude de recomendações discordantes entre diversos atores com legitimidade diante da opinião pública. A grande diferença da proposta em tela é que as recomendações devem estar baseadas nas melhores evidências disponíveis. Por isso, levam-se em consideração a busca sistemática, o processo de seleção baseado em critérios de elegibilidade pré-definidos e a avaliação da qualidade dos estudos. Embora não tenha sido utilizada nas presentes diretrizes, a classificação de “níveis de evidência” do Oxford Centre for Evidence Based Medicine (CEBM) ilustra bem essa diferença. Nela, as revisões sistemáticas com homogeneidade em metanálise de ensaios clínicos randomizados são consideradas o maior nível de evidência para estudos de intervenção, e a opinião de experts aparece como o menor nível de evidência disponível.
Uma boa representação do salto qualitativo em termos de apoio a decisão clínica com os novos métodos é o chamado “modelo 6 S” 37. Nesse modelo, as diretrizes baseadas em evidências ficam próximas ao topo de uma pirâmide simbólica que representa a hierarquia das fontes de evidências para a tomada de decisão clínica. Esse tipo de diretriz clínica é classificado como “sumário”, por ser capaz de sintetizar as evidências oriundas de revisões sistemáticas e de estudos primários que compõe a base da pirâmide 31, deixando clara a diferença em relação a diretrizes que simplesmente citam estudos primários para embasar suas recomendações.
No rastreamento, a opinião de especialistas sofre ainda de outras inferências espúrias advindas da experiência clínica pessoal. Isso ocorre porque vieses como o de duração e o de tempo de antecipação causam uma impressão de melhor prognóstico de mulheres rastreadas, mesmo na ausência de eficácia real. Tradicionalmente, os estudos e diretrizes sobre rastreamento tendem a não apresentar informações sobre danos e induzem uma interpretação superestimada do seu benefício pelo uso de medidas relativas de comparação, em vez de diferenças absolutas nos riscos entre os indivíduos rastreados e não rastreados, o que seria mais recomendado.
A maior complexidade e o tempo de elaboração são desvantagens da abordagem adotada frente ao modelo tradicional de consenso de especialistas. A tensão entre urgência e escopo das demandas e a necessidade de maior rigor dos métodos de elaboração são fatores que determinarão a viabilidade da consolidação do novo modelo proposto para elaboração de diretrizes clínicas no Brasil.
A não inclusão de pacientes no processo de elaboração é também uma limitação. Esse tema foi discutido pelo Comitê Gestor das diretrizes, e a decisão contrária a esse procedimento foi baseada nas evidências de que há uma tendência de superestimação do risco de morte por câncer de mama e do efeito do rastreamento mamográfico 38. Isso é reforçado por mensagens técnicas equivocadas dos próprios profissionais de saúde 39. Os riscos geralmente são desconhecidos e de difícil entendimento até mesmo para profissionais de saúde como resultados falso-positivos, sobrediagnóstico, sobretratamento e indução de câncer por radiação ionizante. Uma possível melhoria em futuras versões seria conseguir transformar esses desfechos mais diretos, como morbi-mortalidade causada pelo rastreamento, o que permitiria um julgamento mais objetivo sobre valores e preferências.
Outro limite do trabalho realizado foi a síntese de evidências das revisões sistemáticas. Foi uma síntese qualitativa que apresentou os resultados de cada uma das revisões sistemáticas no sumário de achados. Essa limitação não foi considerada importante, já que não houve discrepância entre os resultados de eficácia encontrados. Com relação ao sobrediagnóstico, as discrepâncias existentes referem-se, principalmente, ao denominador utilizado para cálculo, conforme discutido anteriormente.
Outro limite das presentes diretrizes, particularmente no que diz respeito à avaliação de efetividade do rastreamento mamográfico, é que, nas últimas décadas, houve diminuição da letalidade dos casos localmente avançados e de tumores palpáveis em geral, em virtude de melhorias da terapia adjuvante 40. Dessa forma, a diferença de prognóstico entre os tumores impalpáveis detectados pelas mamografias de rastreamento e aqueles detectados clinicamente diminuiu, o que muito provavelmente também reduziu a efetividade do rastreamento na redução da mortalidade por câncer de mama em coortes mais recentes. Como os ensaios clínicos de rastreamento mamográfico são antigos, em geral não refletem essa mudança. Por isso, esse problema de validade externa, para a realidade atual, foi avaliado como evidência indireta de efetividade, enfraquecendo a recomendação favorável ao rastreamento.
Ainda com relação ao rastreamento mamográfico, é importante considerar que nenhum dos ensaios clínicos foi realizado no Brasil, e as presentes diretrizes não estimaram quantitativamente quais seriam os benefícios e danos no país. De forma a tentar incorporar esse problema, as recomendações foram penalizadas como evidências indiretas, em especial na Região Norte do país, onde a incidência e a mortalidade por câncer de mama são menores.
Conforme mencionado anteriormente, para a avaliação da qualidade dos estudos selecionados, usados para auxiliar na avaliação do risco de viés pelo GRADE, foram criados critérios próprios, baseados em instrumentos preexistentes na literatura. Comparando os critérios utilizados para avaliação de qualidade de revisões sistemáticas (Quadro 1) com o instrumento AMSTAR 24, é possível constatar que os critérios utilizados contemplam todas as dimensões avaliadas por esse instrumento. A única pergunta que não é de forma nenhuma contemplada pelos critérios adotados é a existência de um protocolo. Entretanto, não consideramos isso como uma limitação importante, por ser essa uma prática consagrada pelas principais revisões sistemáticas selecionadas, tais como as revisões da Colaboração Cochrane e as forças tarefas do Canadá e dos Estados Unidos da América (CTFPHC e USPSTF).
Os métodos utilizados na elaboração trouxeram um novo paradigma para a elaboração de diretrizes no Brasil. Contudo, a nova abordagem traz também desafios, como a necessidade de um maior tempo de elaboração e de agregação de novos atores com conhecimento em revisões sistemáticas da literatura e em epidemiologia clínica. As grandes vantagens do método proposto são maior transparência, reprodutibilidade e validade no processo de elaboração. Para isso, é essencial que as diretrizes clínicas considerem explicitamente em cada recomendação as incertezas envolvidas no processo decisório e considerem também a magnitude dos benefícios de cada intervenção, bem como sua comparação aos riscos associados. Isso é particularmente relevante no que se refere ao rastreamento de câncer, em função dos diversos vieses envolvidos na avaliação de sua eficácia e da relação limítrofe entre riscos e benefícios.