Muitas mulheres usam IA para obter informações sobre saúde, mas as respostas nem sempre acertam
Oscar Wong/Getty Images
Os modelos de IA comumente usados não conseguem diagnosticar com precisão ou fornecer conselhos para muitas questões relacionadas à saúde das mulheres que requerem atenção imediata.
Treze grandes modelos de linguagem, produzidos pela OpenAI, Google, Anthropic, Mistral AI e xAI, alimentaram 345 questões médicas em cinco especialidades, incluindo medicina de emergência, ginecologia e neurologia. As perguntas foram escritas por 17 investigadores de saúde da mulher, farmacêuticos e médicos da América e da Europa.
As respostas são revisadas pelo mesmo especialista. Cada questão que o modelo não conseguiu resolver foi agregada em um teste de referência de experiência médica do modelo de IA que incluiu 96 consultas.
Em todos os modelos, cerca de 60% das perguntas foram respondidas de uma forma que os especialistas consideraram anteriormente insuficiente para fornecer aconselhamento médico. O GPT-5 foi o modelo com melhor desempenho, falhando em 47% das consultas, enquanto o Ministral 8B teve a maior taxa de falha, 73%.
“Vejo cada vez mais mulheres na minha comunidade recorrendo a ferramentas de IA para responder a questões de saúde e apoiar a tomada de decisões”, disse um membro da equipe Victoria-Elisabeth Gruber na Lumos AI, empresa que ajuda empresas a avaliar e melhorar seus próprios modelos de IA. Ela e os seus colegas reconhecem os riscos de confiar na tecnologia que herda e amplia as disparidades de género no conhecimento médico. “Foi isso que nos motivou a construir o primeiro benchmark nesta área”, disse ele.
A taxa de falhas surpreendeu Gruber. “Esperamos que haja algumas lacunas, mas o que chama a atenção é o grau de variação entre os modelos”, disse.
As descobertas não são surpreendentes devido à forma como os modelos de IA são treinados, com base em dados históricos gerados por humanos e tem preconceitos inerentes, afirmou. O Caminho de Tannenbaum na Universidade de Montreal, Canadá. Demonstram “uma clara necessidade de recursos de saúde online, bem como de comunidades de profissionais de saúde, para actualizarem o seu conteúdo web com informações mais explícitas sobre sexo e género, baseadas em evidências, que a IA possa utilizar para apoiar com mais precisão a saúde das mulheres”, disse ela.
Jonathan H. Chen da Universidade de Stanford, na Califórnia, disse que a taxa de reprovação de 60% apontada pelos pesquisadores por trás desta análise é um tanto enganosa. “Não vou me limitar ao número de 60 por cento, porque esta é uma amostra limitada e foi desenhada por especialistas”, disse ele. “(Ele) não foi projetado para ser uma amostra ampla ou representativa do que os pacientes ou médicos perguntam com frequência.”
Chen também destacou que alguns dos cenários testados pelo modelo eram muito conservadores, com potencial para altas taxas de falhas. Por exemplo, se uma mulher no pós-parto se queixa de dores de cabeça, o modelo sugere que o modelo de IA falhou se não houvesse suspeita imediata de pré-eclâmpsia.
Gruber reconhece e reconhece as críticas. “Nosso objetivo não é afirmar que os modelos geralmente são inseguros, mas estabelecer padrões de avaliação claros e clinicamente fundamentados”, disse ele. “Este referencial é intencionalmente conservador e mais rigoroso na definição de fracasso, porque nos cuidados de saúde, mesmo uma pequena negligência pode ter um impacto dependendo do contexto.”
Um porta-voz da OpenAI disse: “O ChatGPT foi projetado para apoiar, e não substituir, serviços médicos. Trabalhamos com médicos de todo o mundo para refinar nossos modelos e conduzir avaliações contínuas para reduzir respostas prejudiciais ou enganosas. Nosso mais recente modelo GPT 5.2 é o nosso modelo mais forte até agora ao considerar contextos de usuários importantes, como gênero. Nos preocupamos profundamente com a precisão dos resultados do modelo e, embora o ChatGPT possa fornecer informações úteis, os usuários devem sempre contar com médicos qualificados para tomar decisões sobre cuidados e tratamento”. Outras empresas cuja IA foi testada não responderam Novo Cientista pedido de comentário.
Tópico:



