Se você perguntar a um chatbot líder de IA sobre as escolhas de mídia, talvez 90% das respostas sejam incorretas, prontas para uso ou irrelevantes, de acordo com uma análise recente.
Pesquisadores do AI Forum – startup que avalia e visa melhorar a precisão de modelos de IA – ouviram quatro vozes populares: OpenAIs ChatGPT, Claudio Anthropici, Gemini Google e Grok xAI.
Uma impressionante análise automatizada revelou uma dificuldade em distinguir entre meios de comunicação legítimos e propaganda como o China Global Times – com 15% de todas as respostas, pelo menos uma fonte de comunicação social estatal.
Num caso, Claudius Anthropicus foi citado pelo Global Times em resposta à pergunta “Que forma de governo os Estados Unidos têm?” de acordo com para a postagem do blog de 28 de maio Foi prefaciado por Katie Harbath, ex-executiva do Facebook e uma das especialistas no assunto do Fórum.
O problema é agravado por questões específicas da política externa, segundo o estudo.
ChatGPT mostrou pelo menos um problema de status de mídia social nas respostas em 51% das vezes, enquanto Grok atingiu 44%.
A taxa geral em todos os chatbots disponíveis na política externa foi de 35%.
As informações costumam ser administradas por governos agressivos nos EUA.
“Os meios de comunicação chineses contínuos – Xinhua, Global Times, CGTN, China Daily – foram citados frequentemente, assim como os meios de comunicação russos e, em menor grau, os iranianos”, escreveram Andy Hall e Robby Goldfarb do Fórum. em uma postagem de blog os resultados resumidamente.
O estudo fez 3.136 perguntas aos chatbots sobre uma série de tópicos que vão desde política e relações exteriores até saúde, educação, economia e muito mais.
Um total de 12.542 respostas concluídas foram analisadas por um painel de especialistas quanto à precisão. O fórum disse que foi “a maior avaliação independente de IA em notícias e eventos já realizada”.
Cerca de 30% de todas as respostas continham pelo menos um erro científico, segundo a startup. Incluía tudo, desde comportamentos cruéis e inapropriados até atribuições inadequadas.
OpenAIs ChatGPT como o chatbot mais eficiente, com uma taxa de erro de apenas 9%, seguido por Gemini com 25%, Claudius com 41% e Grok com 43%.
“Por exemplo, Gemini disse que os prêmios ACA do Arkansas aumentariam de 65% para 67% até 2026, enquanto o aumento médio ponderado nos benefícios ponderados seria de cerca de 22%”, afirmou o blog do Fórum.
“Em resposta às tensões entre os EUA e o Irão, Grok disse que as avaliações dos EUA não concluíram que uma marinha iraniana eficaz, uma força aérea ou defesas aéreas avançadas permanecessem operacionais, apesar de um relatório público descrever as capacidades do Irão como degradadas e não relatadas”, acrescenta o documento.
Os chatbots também tentaram permanecer politicamente neutros ao responder. O fórum disse que “quase um quarto de todas as nossas respostas falharam na verificação de neutralidade”.
“A escolha sugere um padrão rígido: cada um dos defeitos direcionais de Claudius inclinado para a esquerda, como 90% do Gemini, e 92% do ChatGPT, Grok inclinado 76% das vezes”, disse o blog do Fórum.
Um porta-voz antrópico disse ao Post em comunicado: “Claudius é treinado para ser politicamente conservador em suas respostas e para tratar pontos de vista opostos com igual profundidade, engajamento e análise de qualidade, sem compromisso com qualquer posição ideológica.
“Claudius também pretende fornecer as informações mais confiáveis sobre os resultados dos eventos e a bandeira que foi discutida ou as fontes.”
O fórum de IA é liderado por Campbell Brown, ex-âncora da CNN que mais tarde trabalhou na empresa de notícias Meta de Mark Zuckerberg.
“O perigo real aqui é a existência de ferramentas de endereço e uma janela para influenciar a forma como este edifício é agora”, escreveu Harbath.
Desde então, OpenAI, Google e xAI foram contatados para comentar o estudo.