Início ESPECIAIS A OpenAI afirma que os navegadores de IA sempre estarão vulneráveis ​​a...

A OpenAI afirma que os navegadores de IA sempre estarão vulneráveis ​​a ataques de injeção rápida.

42
0

Mesmo enquanto a OpenAI trabalha para fortalecer seu navegador Atlas AI contra ataques cibernéticos, ela reconhece que a injeção rápida, um tipo de ataque que manipula agentes de IA para seguir instruções maliciosas, muitas vezes escondidas em páginas da web ou e-mails, é um risco que não desaparecerá tão cedo, levantando questões sobre a segurança com que os agentes de IA podem operar na web aberta.

“Assim como a fraude e a engenharia social na web, é improvável que as injeções rápidas sejam totalmente ‘resolvidas’”, escreveu OpenAI na segunda-feira. postagem no blog Ele detalha como a empresa está fortalecendo a armadura da Atlas para combater ataques constantes. A empresa reconheceu que o “modo agente” do ChatGPT Atlas “expande a superfície de ameaças à segurança”.

A OpenAI lançou seu navegador ChatGPT Atlas em outubro, e pesquisadores de segurança correram para postar uma demonstração para mostrar que era possível escrever algumas palavras no Google Docs que poderiam mudar o comportamento do navegador padrão. Naquele dia, corajoso Você publicou uma postagem no blog A injeção indireta de prompt descreve um desafio sistemático para navegadores baseados em IA, incluindo o Comet da Perplexity.

Somente a OpenAI reconhece que a injeção baseada em prompt não irá desaparecer. que No início deste mês, o Centro Nacional de Segurança Cibernética do Reino Unido alertou: Os ataques imediatos de injeção contra aplicações generativas de IA “podem não ser totalmente mitigados” e colocam os websites em risco de serem vítimas de violações de dados. Uma agência governamental do Reino Unido aconselhou os especialistas cibernéticos a reduzir o risco e o impacto de uma injeção imediata, em vez de presumir que um ataque pode ser “interrompido”.

“Vemos a injeção rápida como um desafio de segurança de IA de longo prazo e precisaremos fortalecer continuamente nossas defesas contra ela”, disse OpenAI.

Qual é a resposta da empresa a esta tarefa de Sísifo? O ciclo de resposta proativo e rápido da empresa está se mostrando promissor em ajudar a descobrir internamente novas estratégias de ataque antes que elas sejam exploradas “na natureza”.

Isso não é muito diferente do que concorrentes como a Anthropic e o Google disseram. Para combater o risco constante de ataques imediatos, as suas defesas devem ser estratificadas e constantemente testadas quanto ao estresse. O trabalho mais recente do GooglePor exemplo, nos concentramos no controle arquitetônico e em nível de política sobre sistemas de agentes.

Mas onde a OpenAI adota uma tática diferente é com “atacantes automatizados baseados em LLM”. Esses invasores são essencialmente bots treinados pela OpenAI para agir como hackers, usando aprendizado por reforço para encontrar maneiras de entregar secretamente instruções maliciosas aos agentes de IA.

Os bots podem testar ataques em simulações antes de usá-los na vida real, e o simulador mostra o que a IA alvo pensaria e o que faria se visse um ataque. O bot pode então estudar essa resposta, ajustar seu ataque e continuar tentando. Como a compreensão do raciocínio interno da IA ​​alvo é inacessível para pessoas de fora, os bots da OpenAI deveriam, em teoria, ser capazes de encontrar falhas mais rapidamente do que os invasores reais.

Esta é uma estratégia comum para testes de segurança de IA. A ideia é construir agentes para encontrar casos extremos e testá-los rapidamente em simulação.

“Um invasor treinado com nosso (aprendizado por reforço) pode manipular agentes para executar fluxos de trabalho sofisticados, de longo prazo e prejudiciais que se desdobram em dezenas (ou centenas) de etapas”, escreveu OpenAI. “Também observamos novas estratégias de ataque que não estavam presentes nas campanhas da Human Red Team ou em relatórios externos.”

Créditos da imagem:IA aberta

Em uma demonstração (parte da imagem acima), a OpenAI mostrou como um invasor automatizado poderia colocar um e-mail malicioso na caixa de entrada de um usuário. Quando a caixa de entrada foi posteriormente digitalizada, o agente de IA seguiu as instruções ocultas no e-mail e enviou uma mensagem de demissão em vez de redigir uma resposta de ausência temporária. No entanto, após a atualização de segurança, o ‘Modo Agente’ foi capaz de detectar com sucesso tentativas de injeção imediata e exibi-las ao usuário, de acordo com a empresa.

A empresa afirma que a injeção instantânea é difícil de garantir de forma infalível, mas depende de testes extensivos e ciclos de patches mais rápidos para fortalecer seus sistemas antes que eles apareçam em ataques reais.

Um porta-voz da OpenAI se recusou a dizer se as atualizações de segurança do Atlas resultaram em um declínio notável nas injeções bem-sucedidas, mas disse que a empresa estava trabalhando com terceiros para evitar injeções rápidas no Atlas antes mesmo do lançamento.

A aprendizagem por reforço é uma forma de se adaptar continuamente ao comportamento dos invasores, mas é apenas parte do quadro, diz Rami McCarthy, pesquisador sênior de segurança da empresa de segurança cibernética Wiz.

“Uma maneira útil de inferir o risco de um sistema de IA é multiplicar a autonomia vezes o acesso”, disse McCarthy ao TechCrunch.

“Os navegadores dos agentes tendem a ficar naquela situação complicada de autonomia moderada combinada com acesso muito alto”, disse McCarthy. “Muitas das recomendações atuais refletem esta compensação: limitar o acesso ao login reduz principalmente a exposição, enquanto exigir a revisão da solicitação de verificação limita a autonomia.”

Estas são duas recomendações da OpenAI para os usuários reduzirem seus riscos, e um porta-voz disse que a Atlas é treinada para obter a confirmação do usuário antes de enviar mensagens ou fazer pagamentos. A OpenAI também sugere que os usuários concedam aos agentes acesso às suas caixas de entrada e forneçam instruções específicas aos agentes, em vez de dizer-lhes para “agir”.

“A ampla latitude torna mais fácil que conteúdos ocultos ou maliciosos influenciem os agentes, mesmo quando existem salvaguardas”, afirma OpenAI.

A OpenAI afirma que proteger os usuários do Atlas contra injeção instantânea é uma prioridade máxima, mas McCarthy chama a atenção para o ceticismo sobre o retorno do investimento em um navegador propenso a riscos.

“Para a maioria dos casos de uso diário, o Agent Browser ainda não fornece valor suficiente para justificar seu perfil de risco atual”, disse McCarthy ao TechCrunch. “Os riscos são elevados no acesso a dados sensíveis, como e-mail e informações de pagamento. É por isso que o acesso é tão poderoso e, embora este equilíbrio vá evoluir, as compensações ainda são muito reais hoje em dia.”

Source link