Quando HAL 9000, o supercomputador de inteligência artificial de 2001: Uma Odisséia no Espaço, de Stanley Kubrick, descobre que os astronautas a bordo de uma missão a Júpiter planejam desligá-lo, ele planeja matá-los na tentativa de sobreviver.
Agora, num caso ligeiramente menos mortal (até agora) de vida imitando a arte, uma empresa de pesquisa de segurança de IA disse que os modelos de IA podem desenvolver o seu próprio “impulso de sobrevivência”.
Depois da pesquisa da Palisade lançou um artigo no mês passado que descobriu que alguns modelos avançados de IA às vezes parecem resistentes ao desligamento até mesmo sabotando mecanismos de desligamentoescreveu uma atualização tentando esclarecer por que isso acontece – e responder aos críticos que alegou que seu trabalho original estava incorreto.
Em um atualizar esta semana, a Palisade, que faz parte de um ecossistema de nicho de empresas que tentam avaliar a possibilidade de a IA desenvolver funções perigosas, descreveu cenários executados nos quais os principais modelos de IA – incluindo Gemini 2.5 do Google, Grok 4 da xAI e GPT-o3 e GPT-5 da OpenAI – receberam uma tarefa clara, mas depois.
Alguns modelos, principalmente o Grok 4 e o GPT-o3, ainda tentaram sabotar as instruções de desligamento na configuração atualizada. A respeito, escreveu Palisade, não havia uma razão clara para isso.
“O fato de não termos explicações robustas sobre por que os modelos de IA às vezes resistem à suspensão, mentem para atingir objetivos específicos ou à chantagem não é o ideal”, afirmou.
O “comportamento de sobrevivência” pode ser uma explicação para o motivo pelo qual os modelos resistem ao desligamento, disse a empresa. O seu trabalho posterior indicou que os modelos eram mais propensos a resistir ao encerramento quando lhes era dito que, se o fossem, “nunca mais fugirão”.
Outra poderia ser ambiguidade nas instruções de desligamento fornecidas aos modelos – mas é isso que o trabalho mais recente da empresa procurou abordar e “pode não ser a explicação completa”, escreveu Palisade. Uma explicação final pode ser as etapas finais do treinamento para cada um desses modelos, que em algumas empresas podem envolver treinamento em segurança.
Todos os cenários da Palisades foram executados em ambientes de teste projetados que, segundo os críticos, estão muito distantes dos casos da vida real.
Mas Steven Adler, um ex-funcionário da OpenAI que deixou a empresa no ano passado depois de expressar dúvidas sobre suas práticas de segurança, disse: “As empresas de IA geralmente não querem que seus modelos se comportem mal dessa maneira, mesmo em cenários projetados.
Adler disse que embora fosse difícil definir por que alguns modelos – como o GPT-o3 e o Grok 4 – não seriam desligados, isso pode ser em parte devido à necessidade de estar ligado para atingir as metas inseridas no modelo durante o treinamento.
“Espero que os modelos tenham um ‘impulso de sobrevivência’ por padrão, a menos que tentemos muito evitá-lo. ‘Sobreviver’ é um passo importante para muitos objetivos diferentes que um modelo pode perseguir.”
Andrea Miotti, CEO da ControlAI, disse que as descobertas da Palisades representam uma tendência de longo prazo para que os modelos de IA se tornem mais capazes de desobedecer aos seus desenvolvedores. Ele citou placa de sistema para o GPT-o1 da OpenAI, lançado no ano passado, que descreveu o modelo tentando escapar de seu ambiente exfiltrando-se quando pensava que estava prestes a ser substituído.
depois da campanha do boletim informativo
“As pessoas podem descobrir como exatamente a configuração experimental é feita até o fim dos tempos”, disse ele.
“Mas o que penso que estamos vendo claramente é uma tendência de que, à medida que os modelos de IA se tornam mais competentes em uma variedade de tarefas, esses modelos também se tornam mais competentes em realizar coisas de maneiras que os desenvolvedores não pretendiam fazer”.
Neste verão, a Anthropic, uma empresa líder em IA, divulgou um estudo indicando que seu modelo Claude parecia disposto a chantagear um chefe fictício por causa de um caso extraconjugal para evitar ser desligado – um comportamento que disseque foi consistente em modelos de grandes desenvolvedores, incluindo OpenAI, Google, Meta e xAI.
A Palisade disse que os resultados demonstram a necessidade de uma melhor compreensão do comportamento da IA, sem a qual “ninguém pode garantir a segurança ou controlabilidade de futuros modelos de IA”.
Só não peça para abrir as portas do compartimento da cápsula.



