O professor da Washington State University, Mesut Cicek, e sua equipe de pesquisadores testaram repetidamente o ChatGPT derivando hipóteses de artigos científicos. O objetivo era ver se a IA conseguia determinar corretamente se cada afirmação era apoiada por investigação – por outras palavras, se era verdadeira ou falsa.
No total, a equipe avaliou mais de 700 hipóteses e fez a mesma pergunta 10 vezes para cada hipótese para medir a consistência.
Resultados de precisão e limitações do desempenho da inteligência artificial
Quando o experimento foi conduzido pela primeira vez em 2024, ChatGPT respondeu corretamente 76,5% das vezes. Nos testes de acompanhamento em 2025, a precisão aumentou ligeiramente para 80%. No entanto, depois que os pesquisadores ajustaram as suposições aleatórias, os resultados pareceram menos impressionantes. O desempenho da IA é apenas cerca de 60% melhor que o acaso, um nível mais próximo do baixo D do que da confiabilidade forte.
Este sistema tem a maior dificuldade em identificar declarações falsas, sinalizando erros corretamente apenas 16,4% das vezes. Também mostra inconsistências significativas. Mesmo recebendo exatamente a mesma solicitação 10 vezes, o ChatGPT produziu respostas consistentes apenas em cerca de 73% das vezes.
Respostas inconsistentes levantam preocupações
“Não estamos falando apenas de precisão, mas de inconsistência, porque se você fizer a mesma pergunta repetidamente, obterá respostas diferentes”, disse Cisek, professor associado do Departamento de Marketing e Negócios Internacionais da Carson College of Business da Universidade Estadual de Washington e principal autor da nova publicação.
“Usamos 10 prompts, fazendo as mesmas perguntas. Tudo era igual. A resposta seria correta. Em seguida, dizia que estava errado. Estava certo, estava errado, errado, certo. Houve alguns casos em que foram cinco certos, cinco errados.”
Fluência de IA e verdadeira compreensão
As descobertas foram publicadas em Avaliação de negócios da Rutgersenfatiza a importância de ter cautela ao confiar na inteligência artificial para tomar decisões importantes, especialmente aquelas que exigem raciocínio detalhado ou complexo. Embora a IA generativa possa produzir uma linguagem fluente e convincente, ainda não demonstrou o mesmo nível de compreensão conceptual.
Cisek disse que estes resultados sugerem que a inteligência artificial geral que pode realmente “pensar” ainda pode estar mais distante do que muitas pessoas esperam.
“As atuais ferramentas de inteligência artificial não conseguem compreender o mundo da mesma forma que nós – elas não têm um ‘cérebro’”, disse Cisek. “Eles apenas memorizam e isso pode lhe dar algumas dicas, mas não entendem do que estão falando.”
Desenho e métodos de pesquisa
Cicek colaborou com os co-autores Sevinggul Ulu da Southern Illinois University, Can Uslay da Rutgers University e Kate Karniouchina da Northeastern University.
A equipe utilizou 719 hipóteses de estudos científicos publicados em revistas de negócios desde 2021. Esses tipos de perguntas geralmente envolvem nuances, com múltiplos fatores que afetam o suporte de uma hipótese. Reduzir esta complexidade a simples julgamentos de certo e errado requer um raciocínio cuidadoso.
Os pesquisadores testaram uma versão gratuita do ChatGPT-3.5 em 2024 e o mais recente ChatGPT-5 mini em 2025. No geral, o desempenho de ambas as versões permanece semelhante. Após o ajuste para o acaso (50% de chance de dar a resposta correta), a eficácia da IA foi apenas cerca de 60% melhor que o acaso ao longo dos dois anos.
Principais fraquezas do raciocínio de inteligência artificial
Os resultados apontam para limitações fundamentais dos sistemas de inteligência artificial de modelos de linguagem em grande escala. Embora possam responder de forma fluente e convincente, muitas vezes têm dificuldade em raciocinar sobre questões complexas. Isso pode levar a respostas que parecem convincentes, mas que na verdade estão erradas, disse Cisek.
Por que os especialistas recomendam cautela sobre a inteligência artificial
Com base nestas descobertas, os investigadores recomendam que os líderes empresariais verifiquem as mensagens geradas pela IA e tratem-nas com ceticismo. Enfatizaram também a necessidade de formação para compreender melhor o que os sistemas de IA podem ou não fazer de forma eficaz.
Embora este estudo tenha analisado especificamente o ChatGPT, Cicek observou que experimentos semelhantes usando outras ferramentas de inteligência artificial produziram resultados semelhantes. O trabalho também se baseia em pesquisas anteriores que apontaram para cautela sobre o hype da inteligência artificial. Uma pesquisa nacional de 2024 descobriu que os consumidores são menos propensos a comprar produtos focados em inteligência artificial.
“Seja sempre cético”, disse ele. “Não sou contra a inteligência artificial. Estou usando-a. Mas é preciso ter muito cuidado.”



