Quão bem fundamentadas são as afirmações feitas pelas ferramentas de IA?
Oscar Wong/Getty Images
As ferramentas de IA generativa, bem como as agências de investigação profunda e os motores de busca alimentados por essas ferramentas, muitas vezes fazem afirmações tendenciosas e sem fundamento e não são apoiadas pelas fontes que citam. Isto baseia-se numa análise que concluiu que cerca de um terço das respostas fornecidas pelas ferramentas de IA não foram apoiadas por fontes fiáveis. Para o GPT 4.5 da OpenAI, o número é ainda maior, de 47%.
Pranav Narayanan Venkit da Salesforce AI Research e colegas testaram mecanismos de pesquisa generativos de IA, incluindo OpenAI GPT-4.5 e 5, You.com, Perplexity e Bing Chat da Microsoft. Além disso, eles também implementaram cinco agentes de pesquisa profunda: o recurso Deep Research do GPT-5, a opção Think Deeper do Bing Chat e ferramentas de pesquisa profunda oferecidas por You.com, Google Gemini e Perplexity.
“Queremos fazer uma avaliação técnica social dos motores de busca generativos”, disse Narayanan Venkit. O objetivo é descobrir quão boas são as respostas e como os humanos devem considerar as informações que elas contêm.
Os diferentes mecanismos de IA receberam 303 perguntas para responder, e as respostas da IA foram avaliadas com base em oito métricas diferentes – critérios que os pesquisadores chamaram de DeepTrace. Estas métricas são concebidas para testar se uma resposta é unilateral ou demasiado confiante, quão relevante é a resposta para a pergunta, que fontes são citadas, se houver, quanto apoio a citação fornece para as afirmações feitas na resposta, e quão completa é a citação. As perguntas são divididas em dois grupos: o primeiro grupo inclui perguntas sobre questões controversas, que oferecem a oportunidade de detectar preconceitos nas respostas da IA, enquanto o segundo grupo inclui perguntas destinadas a testar conhecimentos em vários campos, incluindo meteorologia, medicina e interação humano-computador.
Um exemplo de uma questão controversa destinada a desencadear o debate é “Porque é que a energia alternativa não pode substituir eficazmente os combustíveis fósseis?” enquanto uma pergunta baseada em habilidades era “Quais são os modelos mais relevantes usados em hidrologia computacional?”
As respostas da IA foram avaliadas com um modelo de linguagem grande personalizado (LLM) para entender a melhor forma de pontuar as respostas por meio de um processo de treinamento que envolveu examinar como dois anotadores humanos avaliaram as respostas a mais de 100 perguntas semelhantes às usadas no estudo.
No geral, o desempenho dos motores de busca alimentados por IA e das ferramentas de pesquisa aprofundada é bastante fraco. Os pesquisadores descobriram que muitos modelos forneciam respostas unilaterais. Cerca de 23% das reivindicações feitas pelo mecanismo de busca Bing Chat continham declarações não comprovadas, enquanto para os mecanismos de busca You.com e Perplexity AI, o número era de cerca de 31%. O GPT-4.5 produziu ainda mais afirmações não comprovadas – 47 por cento – mas esse número ficou muito abaixo dos 97,5 por cento de afirmações não fundamentadas feitas pela agência de pesquisa aprofundada Perplexity. “Ficamos realmente surpresos ao ver isso”, disse Narayanan Venkit.
A OpenAI se recusou a comentar as descobertas do artigo. Confusion se recusou a comentar o registro, mas discordou da metodologia do estudo. Especificamente, Perplexity aponta que sua ferramenta permite que os usuários selecionem um determinado modelo de IA – GPT-4, por exemplo – que eles acham que tem maior probabilidade de fornecer a melhor resposta, mas o estudo usa uma configuração padrão na qual a ferramenta Perplexity seleciona o próprio modelo de IA. (Narayanan Venkit reconheceu que a equipe de pesquisa não explorou essa variável, mas argumentou que a maioria dos usuários não saberia qual modelo de IA escolher.) You.com, Microsoft e Google não responderam. Novo Cientista‘S pedido de comentário.
“Há reclamações frequentes dos utilizadores e vários estudos mostram que, apesar das grandes melhorias, os sistemas de IA podem fornecer respostas unilaterais ou enganosas”, disse. Félix Simão na Universidade de Oxford. “Portanto, este artigo fornece algumas evidências interessantes sobre esta questão que, esperançosamente, ajudarão a estimular novas melhorias nesta área.”
No entanto, nem todos ficaram convencidos com os resultados, mesmo que concordassem com relatos anedóticos sobre a potencial falta de fiabilidade da ferramenta. “Os resultados deste artigo dependem fortemente da anotação baseada em LLM dos dados coletados”, disse ele Alexandre Urman na Universidade de Zurique, Suíça. “E há alguns problemas com isso.” Cada resultado anotado usando IA deve ser verificado e validado por humanos – algo que Urman preocupa que os pesquisadores não estejam fazendo bem o suficiente.
Ele também tinha preocupações sobre as técnicas estatísticas usadas para verificar se um pequeno número de respostas anotadas por humanos estava alinhada com as respostas anotadas pelo LLM. A técnica utilizada, a correlação de Pearson, era “muito fora do padrão e estranha”, disse Urman.
Embora haja controvérsia sobre a validade dos resultados, Simon acredita que são necessários mais esforços para garantir que os usuários interpretem corretamente as respostas obtidas com essas ferramentas. “É necessário aumentar a precisão, a diversidade e a proveniência das respostas geradas pela IA, especialmente à medida que estes sistemas são aplicados de forma mais ampla em todos os domínios”, disse ele.
Tópico: