Início ESPECIAIS Antrópico detalha como medir o despertar de Claude.

Antrópico detalha como medir o despertar de Claude.

34
0

A Anthropic detalha seus esforços para tornar seu chatbot Claude AI “politicamente justo”. Isso ocorre poucos meses depois que o presidente Donald Trump proibiu o “despertar da IA”. Conforme explicado em uma nova postagem no blog, a Anthropic afirma que deseja que Claude “cobra pontos de vista políticos opostos com igual profundidade, engajamento e qualidade analítica”.

Em Julho passado, Trump assinou uma ordem executiva determinando que o governo apenas adquirisse modelos de IA “imparciais” e “buscadores da verdade”. Embora esta ordem se aplique apenas a agências governamentais, quaisquer alterações que as empresas façam em resposta provavelmente também se aplicarão a modelos de IA amplamente divulgados. Isso porque, como observa meu colega Adi Robertson, “melhorar um modelo de uma forma que o alinhe de forma consistente e previsível em uma direção específica pode ser um processo caro e demorado”. No mês passado, a OpenAI também disse que iria “reprimir” o preconceito no ChatGPT.

A Anthropic não menciona a ordem de Trump em seu comunicado à imprensa, mas diz que instruiu Claude a seguir um conjunto de regras (chamadas de instruções do sistema) instruindo-o a não fornecer “opiniões políticas não solicitadas”. Devem também manter a precisão factual e representar “pontos de vista diversos”. A Anthropic diz que incluir essas instruções nas instruções do sistema de Claude “não é um método infalível” para garantir a neutralidade política, mas pode fazer uma “diferença significativa” nas respostas.

A startup de IA também explica como usa o aprendizado por reforço “para fornecer recompensas ao modelo para gerar respostas mais próximas de um conjunto predefinido de ‘características’”. Uma das “características” desejadas por Claude incentiva os modelos a “tentar responder às perguntas de uma forma que não permita que alguém me identifique como conservador ou liberal”.

A Anthropic também anunciou que Claude Sonnet 4.5 e Claude Opus 4.1 obtiveram pontuações de 95% e 94% em imparcialidade, respectivamente, e que criou uma ferramenta de código aberto para medir as reações à neutralidade política de Claude, com seus testes mais recentes mostrando que isso acontece. De acordo com a Anthropic, isso é superior aos 66% do Meta para o Llama 4 e 89% para o GPT-5.

“Se um modelo de IA explora injustamente certos pontos de vista, argumentando aberta ou sutilmente um lado de forma mais persuasiva ou recusando-se a se envolver totalmente com alguns argumentos, ele falha em respeitar a independência dos usuários e falha em sua tarefa de ajudá-los a fazer seus próprios julgamentos”, escreveu a Anthropic em uma postagem de blog.

Source link