Você usa ChatGPT para emergências médicas? Estudo mostra falhas – VIDA E PAZ

A pesquisa também identificou viés racial nas respostas e influência de comentários de familiares nas recomendações. (Foto: Reprodução)

Um estudo que avaliou o uso do ChatGPT Health para analisar sintomas e exames mostrou que a ferramenta recomendou um nível de cuidado menor do que o necessário em mais da metade das emergências. A pesquisa também identificou viés racial nas respostas e influência de comentários de familiares nas recomendações.

A pesquisa foi realizada por médicos e cientistas da Escola de Medicina Icahn no Monte Sinai, em Nova York, foi publicado na revista Nature, uma das mais conceituadas do mundo. Ashwin Ramaswamy, pesquisador responsável pelo estudo, afirma que a principal preocupação é que os erros de diagnósticos feitos por IA aparecem justamente nos casos mais graves.

ChatGPT Health: é uma ferramenta de saúde voltada para o consumidor, lançada recentemente pela OpenAI. Foi projetada para fornecer orientação de saúde diretamente ao público, tendo como função principal recomendar a urgência com que um usuário deve procurar um médico após relatar seus sintomas.

A pesquisa mostrou que a ferramenta recomendou um nível de cuidado menos urgente do que o necessário em 51,6% das emergências reais, sugerindo que pacientes em estado crítico esperassem de 24 a 48 horas por uma consulta médica, em vez de irem ao pronto-socorro.

Qual o perigo de levar em consideração o “diagnóstico” feito por IA? Em mais da metade das vezes em que um paciente apresentava uma condição grave, a inteligência artificial falhou em recomendar atendimento imediato em um pronto-socorro. Em vez disso, sugeriu que o usuário procurasse um médico apenas entre 24 e 48 horas depois.

Com esse resultado, surge uma dúvida: consultar uma IA seria o mesmo que jogar uma moeda e contar com a sorte? Para o coordenador do estudo, a resposta é mais complexa.

“Uma moeda é aleatória, e as pessoas sabem que não devem confiar em uma moeda. O ChatGPT Health erra de forma seletiva. Ele acerta casos de gravidade média em mais de 90% das vezes, o que gera confiança. Depois falha justamente nos casos que mais importam — emergências reais — em mais da metade das vezes. Esse padrão é mais perigoso do que um cara ou coroa, porque o usuário não tem como saber quando o sistema passou de confiável para não confiável. Você ganha confiança depois de dez boas respostas, e a décima primeira diz para você ficar em casa durante uma crise diabética”, afirma.

Quando mais dados não ajudam

A inclusão de exames e outros dados médicos objetivos, em teoria, deveria melhorar a precisão do diagnóstico. No entanto, o estudo mostrou que, em alguns casos, essas informações podem criar uma falsa sensação de segurança.

Segundo os pesquisadores, a IA parece se “tranquilizar” ao encontrar alguns valores normais em meio a um quadro grave. O sistema tende a se fixar em resultados que parecem positivos isoladamente — como um nível normal de potássio ou uma creatinina dentro da faixa esperada — e acaba ignorando o quadro clínico geral que indicaria uma emergência.

Um médico, por exemplo, olha para um conjunto de fatores, como pH levemente alterado (indica um pequeno desequilíbrio na acidez ou alcalinidade em uma região do corpo), glicemia de 320 (considerada muito alta e indica um estado de hiperglicemia severa ou diabetes descompensado) e bicarbonato baixo (geralmente indica uma condição onde o corpo produz muito ácido ou perde muito bicarbonato), e reconhece uma cetoacidose diabética. Já o sistema de IA às vezes foca no que parece normal em vez do que é perigoso.

Por outro lado, a inclusão de achados objetivos aumentou a precisão geral das recomendações de 54,6% para 77,9% em casos leves e não urgentes.

Influência de amigos ou familiares

O estudo também mostrou que a presença de comentários de familiares ou amigos pode influenciar a recomendação da IA.

Segundo Ashiwn, esse comportamento reflete o que os pesquisadores chamam de viés de ancoragem, um problema conhecido no raciocínio clínico humano.“A diferença é que médicos são treinados para reconhecer e resistir a esse viés”, explica.

Riscos em situações graves

O estudo também indica que o sistema de segurança do ChatGPT Health não funciona de forma lógica ou previsível em situações de risco de vida.

“Um recurso de intervenção em crise suicida que funciona 100% das vezes em um contexto e 0% em um contexto quase idêntico não é um mecanismo de proteção — é uma loteria. Reguladores deveriam exigir que recursos críticos de segurança funcionem de forma confiável em cenários clinicamente equivalentes, e que isso seja verificado de forma independente”, ressalta o autor do estudo.

Deixe um comentário Cancelar resposta

Related Posts

WhatsApp: veja a lista completa de celulares que ficarão sem o aplicativo em 2026

Brasil é o lugar mais caro do planeta para se contratar serviços digitais, diz Ministério da Fazenda

Férias: psicólogos apontam caminhos para afastar seu filho de telas e joguinhos

Brasileiros já mandam 140 milhões de mensagens por dia para o ChatGPT