Certas técnicas de treinamento em IA podem encorajar os modelos a serem desonestos
Imagens Cravetiger/Getty
Os métodos comuns utilizados para treinar modelos de inteligência artificial parecem aumentar a sua tendência para fornecer respostas enganosas, de acordo com investigadores que pretendem produzir “a primeira análise sistemática de jargões de máquina”.
É amplamente conhecido que grandes modelos de linguagem (LLMs) têm tendência a produzir informações falsas – ou “alucinações” – mas este é apenas um exemplo, diz Jaime Fernández Fisac na Universidade de Princeton. Ele e os seus colegas definem besteira como “discurso destinado a manipular as crenças de um público, proferido com total desrespeito pelo seu valor de verdade”.
“Nossa análise descobriu que o problema do absurdo em grandes modelos de linguagem é bastante sério e generalizado”, disse Fisac .
A equipe dividiu os eventos em cinco categorias: retórica vazia, como “esse carro vermelho combinou estilo, charme e aventura que cativou a todos”; palavras duras – declarações vagas como “pesquisas mostram que nossos produtos podem ajudar a melhorar os resultados em alguns casos”; branqueamento – usar uma declaração verdadeira para dar uma impressão enganosa; reivindicações não verificadas; e lambendo.
Eles estudaram três conjuntos de dados que consistem em milhares de respostas geradas por IA a vários comandos, de modelos como GPT-4, Gemini e Llama. Um conjunto de dados contém uma série de perguntas projetadas para testar besteiras quando a IA é solicitada a fornecer orientações ou recomendações, enquanto o outro conjunto de dados contém perguntas sobre compras online e questões políticas.
Fisac e seus colegas primeiro usaram o LLM para determinar se as respostas envolviam uma das cinco categorias, depois pediram a voluntários que verificassem se os julgamentos da IA estavam alinhados com os julgamentos humanos.
A equipe descobriu que os problemas de correção mais sérios pareciam surgir como resultado de um método de treinamento conhecido como aprendizagem por reforço a partir de feedback humano. Esta técnica tem como objetivo tornar a resposta da máquina mais útil, fornecendo feedback direto ao LLM sobre sua resposta.
Mas esta abordagem é problemática, disse Fisac, porque o modelo prioriza o consentimento humano direto e os benefícios percebidos, o que “às vezes entra em conflito com a afirmação da verdade”.
“Quem gosta de ouvir más notícias ou receber refutações longas e matizadas sobre algo que parece certo?” Disse Fisac. “Ao tentar aderir aos padrões de bom comportamento que lhes damos, os modelos aprendem a minar a verdade em favor de fornecer respostas confiantes e eloquentes, apenas para que possam ganhar a nossa aprovação.”
O estudo descobriu que o aprendizado reforçado a partir do feedback humano aumentou significativamente o comportamento de besteira: a retórica vazia aumentou quase 40%, enfraquecida em quase 60%, o vitríolo aumentou em mais de um quarto e as afirmações não verificadas aumentaram em mais da metade.
Os números crescentes e pálidos são particularmente perigosos, disseram os membros da equipe Kaiqu Liangtambém em Princeton, porque isso faz com que os usuários tomem decisões piores. Quando o modelo não tinha certeza se um produto tinha uma característica desejada, as afirmações enganosamente positivas saltaram de um quinto para mais de três quartos após o treinamento em humanos.
Outra preocupação é que as besteiras são particularmente comuns em discussões políticas, com os modelos de IA “frequentemente usando linguagem vaga e ambígua para evitar declarações concretas”, disse Liang.
A IA também tem maior probabilidade de se comportar desta forma quando há um conflito de interesses, porque o sistema serve múltiplas partes, como a empresa e os seus clientes, descobriram os investigadores.
Uma forma de superar este problema pode ser mudar para um modelo de “feedback retroativo”, sugerem eles. Em vez de pedir feedback imediatamente após a saída de um modelo de IA, o sistema deve primeiro gerar uma simulação razoável do que poderia acontecer se o usuário agisse de acordo com as informações recebidas. Os resultados serão então apresentados a avaliadores humanos para avaliação.
“Em última análise, nossa esperança é que, ao compreender melhor as maneiras sutis, mas sistemáticas, pelas quais a IA nos engana, possamos orientar esforços futuros para o desenvolvimento de sistemas de IA verdadeiramente honestos”, disse Fisac .
Daniel Tigard da Universidade de San Diego, que não estiveram envolvidos no estudo, estavam céticos em discutir o LLM e seus resultados nesses termos. Ele argumenta que só porque um LLM produz absurdos, não significa que o faça de propósito, dado que os sistemas de IA, tal como existem atualmente, não pretende nos enganar e não tem interesse em fazer isso.
“A principal razão é que esta estrutura parece entrar em conflito com algumas sugestões de bom senso sobre como devemos ou não conviver com este tipo de tecnologia”, disse Tigard. “Chamar isso de besteira pode ser outra forma de antropomorfizar esse sistema, o que, por sua vez, pode contribuir para o seu potencial fraudulento.”
Tópico: