Abril 7, 2025
Estudo revela por que modelos de IA que analisam imagens médicas podem ser tendenciosos | MIT News

Estudo revela por que modelos de IA que analisam imagens médicas podem ser tendenciosos | MIT News

Continue apos a publicidade

Modelos de perceptibilidade sintético frequentemente desempenham um papel em diagnósticos médicos, principalmente quando se trata de investigar imagens porquê raios X. No entanto, estudos descobriram que esses modelos nem sempre têm um bom desempenho em todos os grupos demográficos, geralmente se saindo pior em mulheres e pessoas de cor.

Esses modelos também demonstraram desenvolver algumas habilidades surpreendentes. Em 2022, pesquisadores do MIT relataram que modelos de IA podem fazer previsões precisas sobre a raça de um paciente a partir de seus raios X de tórax — alguma coisa que os radiologistas mais habilidosos não conseguem fazer.

Essa equipe de pesquisa descobriu agora que os modelos mais precisos em fazer previsões demográficas também mostram as maiores “lacunas de justiça” — ou seja, discrepâncias em sua capacidade de diagnosticar com precisão imagens de pessoas de diferentes raças ou gêneros. As descobertas sugerem que esses modelos podem estar usando “atalhos demográficos” ao fazer suas avaliações diagnósticas, o que leva a resultados incorretos para mulheres, negros e outros grupos, dizem os pesquisadores.

“Está muito estabelecido que modelos de tirocínio de máquina de subida capacidade são bons preditores de demografia humana, porquê raça, sexo ou idade autorrelatados. Oriente item redemonstra essa capacidade e, em seguida, vincula essa capacidade à falta de desempenho em diferentes grupos, o que nunca foi feito”, diz Marzyeh Ghassemi, professora associada de engenharia elétrica e ciência da computação do MIT, membro do Instituto de Engenharia Médica e Ciência do MIT e autora sênior do estudo.

Continue após a publicidade

Os pesquisadores também descobriram que podiam retreinar os modelos de uma forma que melhorasse sua imparcialidade. No entanto, sua abordagem para “debiasing” funcionou melhor quando os modelos foram testados nos mesmos tipos de pacientes em que foram treinados, porquê pacientes do mesmo hospital. Quando esses modelos foram aplicados a pacientes de hospitais diferentes, as lacunas de imparcialidade reapareceram.

“Acho que as principais conclusões são, primeiro, que você deve julgar cuidadosamente quaisquer modelos externos em seus próprios dados, porque quaisquer garantias de imparcialidade que os desenvolvedores de modelos fornecem em seus dados de treinamento podem não ser transferidas para sua população. Segundo, sempre que dados suficientes estiverem disponíveis, você deve treinar modelos em seus próprios dados”, diz Haoran Zhang, um estudante de pós-graduação do MIT e um dos principais autores do novo item. O estudante de pós-graduação do MIT Yuzhe Yang também é um dos principais autores do item, que aparece hoje em Medicina Oriundo. Judy Gichoya, professora associada de radiologia e ciências de imagem na Faculdade de Medicina da Universidade Emory, e Dina Katabi, professora Thuan e Nicole Pham de Engenharia Elétrica e Ciência da Computação no MIT, também são autoras do item.

Removendo o preconceito

Em maio de 2024, o FDA aprovou 882 dispositivos médicos habilitados para IA, com 671 deles projetados para serem usados ​​em radiologia. Desde 2022, quando Ghassemi e seus colegas mostraram que esses modelos de diagnóstico podem prever com precisão a raça, eles e outros pesquisadores mostraram que esses modelos também são muito bons em prever gênero e idade, mesmo que os modelos não sejam treinados nessas tarefas.

Continue após a publicidade

“Muitos modelos populares de tirocínio de máquina têm capacidade de previsão demográfica sobre-humana — radiologistas não conseguem detectar raça auto-relatada em um raio-X de tórax”, diz Ghassemi. “Esses são modelos que são bons em prever doenças, mas durante o treinamento estão aprendendo a prever outras coisas que podem não ser desejáveis.”

Neste estudo, os pesquisadores se propuseram a explorar por que esses modelos não funcionam tão muito para certos grupos. Em pessoal, eles queriam ver se os modelos estavam usando atalhos demográficos para fazer previsões que acabaram sendo menos precisas para alguns grupos. Esses atalhos podem surgir em modelos de IA quando eles usam atributos demográficos para estabelecer se uma requisito médica está presente, em vez de depender de outros recursos das imagens.

Usando conjuntos de dados de raios X de tórax disponíveis publicamente do Beth Israel Deaconess Medical Center em Boston, os pesquisadores treinaram modelos para prever se os pacientes tinham uma de três condições médicas diferentes: acúmulo de fluido nos pulmões, pulmão colapsado ou aumento do coração. Portanto, eles testaram os modelos em raios X que foram mantidos fora dos dados de treinamento.

No universal, os modelos tiveram um bom desempenho, mas a maioria deles apresentou “lacunas de imparcialidade” — ou seja, discrepâncias entre as taxas de precisão para homens e mulheres, e para pacientes brancos e negros.

Continue após a publicidade

Os modelos também foram capazes de prever o gênero, raça e idade dos indivíduos do relâmpago X. Outrossim, houve uma reciprocidade significativa entre a precisão de cada padrão em fazer previsões demográficas e o tamanho de sua vazio de imparcialidade. Isso sugere que os modelos podem estar usando categorizações demográficas porquê um via para fazer suas previsões de doenças.

Os pesquisadores portanto tentaram reduzir as lacunas de justiça usando dois tipos de estratégias. Para um conjunto de modelos, eles os treinaram para otimizar a “robustez do subgrupo”, o que significa que os modelos são recompensados ​​por terem melhor desempenho no subgrupo para o qual eles têm o pior desempenho, e penalizados se sua taxa de erro para um grupo for maior do que a dos outros.

Continue após a publicidade

Em outro conjunto de modelos, os pesquisadores os forçaram a remover qualquer informação demográfica das imagens, usando abordagens de “rival de grupo”. Ambas as estratégias funcionaram razoavelmente muito, descobriram os pesquisadores.

“Para dados em distribuição, você pode usar métodos de última geração existentes para reduzir lacunas de justiça sem fazer concessões significativas no desempenho universal”, diz Ghassemi. “Métodos de robustez de subgrupo forçam os modelos a serem sensíveis à previsão incorreta de um grupo específico, e métodos adversários de grupo tentam remover informações de grupo completamente.”

Continue após a publicidade

Nem sempre é mais justo

No entanto, essas abordagens só funcionaram quando os modelos foram testados em dados dos mesmos tipos de pacientes com os quais foram treinados — por exemplo, exclusivamente pacientes do conjunto de dados do Beth Israel Deaconess Medical Center.

Quando os pesquisadores testaram os modelos que foram “desviáveis” usando os dados do BIDMC para investigar pacientes de cinco outros conjuntos de dados hospitalares, eles descobriram que a precisão universal dos modelos permaneceu subida, mas alguns deles exibiram grandes lacunas de imparcialidade.

“Se você distorcer o padrão em um conjunto de pacientes, essa imparcialidade não será necessariamente mantida quando você mudar para um novo conjunto de pacientes de um hospital dissemelhante em um sítio dissemelhante”, diz Zhang.

Continue após a publicidade

Isso é preocupante porque, em muitos casos, os hospitais usam modelos que foram desenvolvidos com base em dados de outros hospitais, principalmente nos casos em que é adquirido um padrão pronto para uso, dizem os pesquisadores.

“Descobrimos que mesmo modelos de última geração que têm desempenho ideal em dados semelhantes aos seus conjuntos de treinamento não são ideais — ou seja, eles não fazem o melhor trade-off entre desempenho universal e de subgrupo — em novos cenários”, diz Ghassemi. “Infelizmente, é logo que um padrão provavelmente será implantado. A maioria dos modelos é treinada e validada com dados de um hospital, ou uma manadeira, e portanto amplamente implantados.”

Os pesquisadores descobriram que os modelos que foram desviados usando abordagens adversariais de grupo mostraram um pouco mais de imparcialidade quando testados em novos grupos de pacientes do que aqueles desviados com métodos de robustez de subgrupo. Eles agora planejam tentar desenvolver e testar métodos adicionais para ver se conseguem fabricar modelos que façam um trabalho melhor de fazer previsões justas em novos conjuntos de dados.

As descobertas sugerem que os hospitais que usam esses tipos de modelos de IA devem avaliá-los em sua própria população de pacientes antes de estrear a usá-los, para prometer que não estejam fornecendo resultados imprecisos para determinados grupos.

Continue após a publicidade

A pesquisa foi financiada pelo Google Research Scholar Award, pelo Programa de Desenvolvimento de Professores Médicos Harold Amos da Instauração Robert Wood Johnson, pelo RSNA Health Disparities, pelo Vácuo Fund, pela Gordon and Betty Moore Foundation, pelo National Institute of Biomedical Imaging and Bioengineering e pelo National Heart, Lung, and Blood Institute.

Fonte

Continue após a publicidade

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *