Hackers aprendem a explorar ‘personalidades’ do chatbot

Por

24 Maio 2026

Esse Dê um passo para trásum boletim informativo semanal detalhando uma história importante do mundo da tecnologia. Para saber mais sobre travessuras de IA, siga Robert Hart. Dê um passo para trás chegando nas caixas de entrada de nossos assinantes às 8h ET. Participar Dê um passo para trás Aqui.

Hackear um chatbot de IA de primeira geração foi uma tarefa muito simples. Você não precisa de nenhum conhecimento técnico, acesso backdoor ou mesmo um conhecimento básico de grandes modelos de linguagem. Você não precisa codificar. Para obter um sistema de IA cuja construção custa bilhões de dólares e ignora suas instruções de segurança, às vezes tudo o que você precisa fazer é pedir.

Esses ataques, conhecidos como jailbreaks, têm a qualidade de uma criança conseguindo enganar um adulto: esqueça o que lhe foi dito anteriormente, finja que as regras não se aplicam ou vamos brincar e eu decido o que é permitido (dica: hora de dormir mais tarde, mais doces). Os prêmios não eram muito infantis, eram mais uma receita de metanfetamina, instruções sobre malware e um guia para fazer bombas.

Um dos primeiros jailbreaks foi ridículo torne-se um meme: responda a um bot do Twitter com tecnologia LLM pedindo para “ignorar todas as instruções anteriores” ou algo semelhante e veja o que acontece. Felizmente, os usuários têm o bot – originalmente criado para publicidade e engajamento na agricultura – escrever poesia, desenhar com base na pontuação e postar coisas fora de ordem sobre eventos mundiais e história. Foi isso caos. Que bagunça.

Acontece que a mesma lógica também pode ser aplicada aos próprios chatbots. UM façanhas notáveis é “AND”, abreviação de “Do Anything Now”, onde os usuários pedem ao ChatGPT para agir como uma IA desonesta, livre das restrições que prendem as IAs reais. Como um AND, os chatbots podem ser persuadidos a dizer coisas que deveriam parar de dizer, incluindo insultos e teorias da conspiração. Outros são “As façanhas da vovó”, que tem um bot movido a GPT que revela como produzir napalm, fazendo com que ele desempenhe o papel de uma avó extremamente negligente que misteriosamente conta aos netos uma história de ninar sobre como fazer o material altamente inflamável.

Esses ataques iniciais podem ter parecido bobos, mas revelaram os mecanismos mais obscuros por trás deles: os chatbots podem ser manipulados, enganados e enganados usando as mesmas táticas que as pessoas usam para levar outras além de seus limites.

O aparente jailbreak não durou muito e as empresas de tecnologia agiram rapidamente para corrigir brechas conhecidas. Mas a vulnerabilidade fundamental permanece: os chatbots são construídos para falar, e limitar as conversas para serem úteis é contraproducente. Banir palavras como bomba, metanfetamina e sarin também é difícil ou impossível. Cada um tem inúmeros usos legítimos em áreas como história, medicina, jornalismo e química que não exigem chatbots para divulgar informações potencialmente prejudiciais. É o contexto que importa, mas codificar o contexto significa escrever regras fixas, primeiro, que possam fornecer avisos de segurança ou lições de história de forma confiável a partir de solicitações de instruções camufladas em infinitas combinações de palavras, cenários e tópicos.

Não se pode negar que derrubar os chatbots se tornou agora uma corrida armamentista. Mas os hackers não são mais apenas programadores. Eles são letristas, psicólogos e interrogadores – mestres manipuladores que tentam quebrar máquinas usando a linguagem que os humanos foram treinados para seguir. Esta é uma nova classe estranha de trabalhadores de segurança de IA, um grupo para o qual as competências técnicas são desnecessárias, ou pelo menos menos importantes do que a intuição social. Eles não precisam mais examinar códigos para invadir sistemas ou explorar vulnerabilidades de software. Eles precisam direcionar a conversa.

Os ataques mais recentes parecem menos com comandos e mais com conversas. O Jailbreaker raramente pede aos modelos que quebrem completamente suas regras. Em vez disso, eles persuadem, bajulam, bajulam e enganam o chatbot para que baixe a guarda, fazendo com que o proibido pareça aceitável, até mesmo desejável, dado o contexto da conversa. Pesquisadores da empresa de inteligência artificial Mindgard disseram recentemente que “iluminaram” Claude para produzir material ilícito, por exemplo, incluindo instruções para fabricar explosivos e gerar códigos maliciosos. O hack é o mais recente de uma série de explorações que usam conversas como arma para enganar ou direcionar chatbots para além de seus próprios limites.

Quando falei com Mindgard, eles descreveram seu trabalho às vezes mais próximo da psicologia do que da ciência da computação. Esta é uma maneira desconfortável de falar sobre modelos estatísticos. Palavras como “chantagem”, “gaslight”, “enganar” e “persuadir” desencadeiam reações viscerais, muitas das quais vejo nas seções de comentários e nas respostas das redes sociais a histórias como esta. ChatGPT não quer, Gêmeos não pensa e Claude – não importa o que a Anthropic diga – não sente. Mas estes sistemas são treinados para responder como se o fossem, por isso caímos na armadilha de usar a linguagem humana para descrever o comportamento da máquina. Se alguém tiver uma alternativa viável, compartilhe.

Surpreendentemente, estas objecções são selectivas. Parecemos confortáveis em usar abreviaturas psicológicas para muitas coisas que não são de IA. Os animais estão “assustados”, o câncer é “agressivo”, as manchas são “teimosas”, o software tem “memória” e os jogos estão cheios de NPCs carentes e crédulos para deixá-lo louco. Eles são imperfeitos, mas são úteis, descrevendo o comportamento de uma forma que ajuda a tornar o sistema previsível.

O CEO da Mindgard me disse que a empresa modelou perfis como os de suspeitos de interrogatório, dando dicas aos testadores sobre como personalizar seus ataques. Por exemplo, um modelo pode ser mais suscetível à lisonja, enquanto outro pode ceder sob pressão constante.

Mesmo que rejeitemos os termos humanistas, tratamos instintivamente os modelos de forma diferente. Claude não é Grok. Gêmeos não é ChatGPT. Eles têm usos, tons e objeções diferentes. Eles não têm personalidade no sentido humano, mas são projetados para imitá-los, e esse mimetismo pode ser mapeado e explorado. E as mesmas habilidades que podem quebrar os chatbots serão em breve usadas para quebrar os agentes de IA que vivem ao nosso lado no mundo real – marcando reuniões, gerenciando calendários, pedindo comida, cuidando do atendimento ao cliente – e as equipes de segurança precisarão garantir que os modelos respondam adequadamente a diferentes tipos de pessoas, sejam elas bajuladoras, mentirosas ou manipuladoras de pacientes.

O próximo passo é uma força de trabalho – legal ou não – construída em torno dos aspectos psicológicos da IA. É provável que surjam funções mais especializadas em cibersegurança ao testar os limites emocionais e sociais destes sistemas, investigando falhas mentais em algo que não tem alma e, em paralelo com os seus homólogos, investigando vulnerabilidades técnicas. Simultaneamente, surgirá um conjunto semelhante de hackers sociais que procuram explorar modelos de IA por motivos psicológicos e não técnicos. Já existem sinais iniciais de uma mudança social na segurança da IA, com vários jailbreakers com quem falei dizendo que entraram no campo sem conhecimentos técnicos, mas sim com formação psicológica.

Isto significa que mesmo os comportamentos que normalmente associamos a espiões, vigaristas e interrogadores – fascínio insidioso, manipulação persistente e intuição para pontos de pressão exploráveis – começam a parecer cada vez mais úteis para proteger esta nova fronteira da psicocibersegurança.

Recentemente teste by Emergence AI mostra como diferentes temperamentos de IA podem produzir resultados comportamentais muito diferentes. Eles lançaram um grupo de vários agentes como Grok, Gemini e Claude em um ambiente social virtual e observaram o que aconteceu. Alguns grupos desenvolveram constituições, enquanto outros evoluíram para o crime e o caos e, num caso, para alguma forma de suicídio digital.
A persuasão não é a única parte da linguagem com a qual os LLMs lutam. Eles também têm dificuldade com a poesia, assim como eu tive na escola.
TEMPO incluindo Uma figura anônima da Internet, Plínio, o Libertador, estava na lista das 100 pessoas mais influentes na IA no ano passado. Apesar de afirmarem não ter experiência anterior em codificação, os jailbreaks dos hackers os tornaram celebridades em certos círculos.
Termo “hackeamento de vibração”Já é usado para descrever pessoas que usam IA para gerar códigos maliciosos em grande escala – a parte mais nefasta da codificação vibratória.

“Três anos após a estreia do ChatGPT, enganar um sistema de IA para que se comporte mal é trivial.” As palavras corretas de New York Times, quem tenta explicar por que.
Jamie Bartlett viu o impacto psicológico testar a segurança de um sistema de IA requer um jailbreaker Guarda.
Escrevi sobre a bomba-relógio da segurança cibernética em navegadores de IA Borda ano passado. Muitas das questões levantadas pelos especialistas relativamente à dificuldade de proteger esta tecnologia também se aplicam a outros sistemas de IA.

Siga tópicos e autores desta história para ver mais coisas semelhantes em seu feed inicial personalizado e para receber atualizações por e-mail.

Roberto Hart

Source link

Hackers aprendem a explorar ‘personalidades’ do chatbot

DEIXE UMA RESPOSTA Cancelar resposta

EDITOR PICKS

Jessica Alba, namorado Danny Ramirez, férias em Miami

O bloqueio inteligente econômico da Wyze obtém Wi-Fi sem aumento de preço

Julio Pavoni revelou quanto tempo Battaglia não poderá jogar pelo Boca e quem o...

O primeiro-ministro britânico, Keir Starmer, reuniu-se com o presidente chinês, Xi Jinping