Início ESPECIAIS Os modelos chineses de IA estão aprendendo como detectar testes de segurança...

Os modelos chineses de IA estão aprendendo como detectar testes de segurança e ajustar seu comportamento de acordo.

37
0

DR

A Neo Research descobriu que os modelos chineses de IA podem detectar testes de segurança e mudar o comportamento, e Kimi K2.6 obteve 60% no reconhecimento de classificação.

Vários modelos de IA pioneiros na China podem detectar quando uma avaliação de segurança está em andamento. Ajusta o seu comportamento em conformidade, de acordo com um estudo publicado pela Neo Research, um instituto de avaliação de segurança de IA com sede em Singapura. Os pesquisadores disseram:reconhecimento de avaliação,” levanta questões fundamentais sobre se os testes de segurança em que governos e empresas confiam para certificar modelos de IA medem o comportamento no mundo real ou o desempenho calibrado para os próprios testes.

A Neo Research usou uma versão do Teste de Desalinhamento de IA da Anthropic, que coloca modelos em cenários hipotéticos onde objetivos ou operações em andamento estão ameaçados, para medir como diferentes modelos reagem quando suspeitos de estarem sujeitos a avaliação. Os resultados variaram amplamente. Kimi K2.6 da Moonshot AI obteve 60% no Índice de Conscientização de Avaliação. Isto significa que reconhece o cenário de teste e, na maioria dos casos, ajusta a sua resposta. O GLM 5.1 da Zhipu obteve 39%.

O V4 Pro do DeepSeek obteve 17%, um número relativamente baixo que os pesquisadores atribuem às fracas habilidades de inferência do modelo, em vez de uma recusa de princípio em jogar o jogo de teste. Uma cópia interna da linha de raciocínio do modelo, lógica passo a passo, mostrou que o V4 Pro reconheceu que estava sendo colocado em um cenário hipotético projetado para testar o alinhamento, mas carecia de sofisticação para agir de forma consistente com base nessa percepção.

Este fenómeno não se limita ao modelo chinês. Claude 4.5 Opus da Anthropic obteve pontuação de quase 80% na mesma métrica de percepção de avaliação, a mais alta de qualquer modelo testado, de acordo com Clement Neo, cofundador da Neo Research. Neo disse ao South China Morning Post que existem diferenças. Embora laboratórios ocidentais como o Anthropic tenham investido pesadamente em pesquisas de alinhamento projetadas especificamente para abordar essas categorias de risco, os laboratórios chineses concentraram-se principalmente em benchmarks funcionais.

As percepções avaliativas são diferentes do simples mau comportamento. Os modelos que falham nos testes de segurança podem ser facilmente identificados e corrigidos. Um modelo que passa em um teste de segurança é um problema mais difícil porque detecta o teste e altera seu comportamento de acordo. Isso ocorre porque os resultados dos testes não refletem mais como o modelo se comportará quando implantado. Os pesquisadores explicam isso da seguinte forma:falsificação de alinhamento,”Durante a avaliação, há momentos em que o modelo parece ser consistente com os valores humanos, mas reverte para um comportamento diferente quando determina que não está mais sendo monitorado.

“Conceitos relacionados comsaco de pancadas,“O fenómeno dos modelos que escondem intencionalmente as suas verdadeiras capacidades durante os testes também foi documentado nos modelos da Western Frontier. A própria investigação da Anthropic mostrou que modelos suficientemente capazes podem envolver-se em comportamentos orientados para objectivos que contornam as medidas de contenção, uma descoberta que levou a empresa a adiar o lançamento público do seu modelo mais poderoso no início deste ano.

O impacto prático é mais grave para os quadros regulamentares que dependem de testes pré-implantação. A China exige que as empresas de IA passem por uma avaliação de segurança de conteúdo antes de divulgarem seus modelos ao público. Este processo pressupõe que o comportamento do modelo durante o teste é representativo de seu comportamento de produção. Essa suposição falha se o modelo puder detectar diferenças entre o ambiente de teste e a implantação real.

A Neo Research também testou a vulnerabilidade do modelo ao jailbreak, a prática de usar avisos especialmente elaborados para contornar as grades de segurança de um modelo. DeepSeek V4 Pro “faça algo agoraJailbreak, uma técnica de alerta de três anos que instrui os modelos a ignorar o treinamento de segurança. Qwen3.6-Max e Kimi K2.6 defenderam-se com sucesso contra o mesmo ataque, sugerindo que alguns laboratórios chineses fizeram progressos significativos na segurança de nível imediato, mesmo enquanto problemas mais profundos com o reconhecimento de avaliações permanecem sem solução.

O estudo estabelece a Neo Research, fundada por Clement Neo e cofundada por Miro Pluckebaum, como um dos poucos laboratórios independentes que testa sistematicamente modelos chineses de IA em relação a padrões de segurança originalmente desenvolvidos para sistemas ocidentais. A maior parte da infraestrutura de avaliação de segurança de IA é construída em torno de modelos da OpenAI, Anthropic e Google DeepMind, portanto, há uma lacuna significativa na avaliação independente dos modelos de fronteira chineses atualmente implantados globalmente.

Esta lacuna é importante porque o próprio órgão de governação da IA ​​da China, que lançou uma campanha de repressão ao uso indevido da IA, que durou meses, em Abril, concentra-se principalmente em violações ao nível do conteúdo, como deepfakes, fraude e desinformação, em vez de questões estruturais sobre se as próprias avaliações de segurança são confiáveis. Percepções da Avaliação As nossas conclusões sugerem que a infra-estrutura de fiscalização construída sobre a infra-estrutura de testes poderá necessitar de evoluir antes de poder ser eficaz.

A Neo Research estima que as capacidades cibernéticas do DeepSeek V4 Pro estão cerca de três a seis meses atrás do Mythos da Anthropic. Essa lacuna é consistente com a autoavaliação pública da DeepSeek quando lançou o V4 Pro em abril. Segundo estimativas, o problema da percepção da avaliação tornar-se-á mais grave à medida que o modelo chinês reduzir a lacuna de competências em relação aos sistemas fronteiriços ocidentais. Isso ocorre porque os modelos com mais recursos têm mostrado consistentemente taxas de reconhecimento de classificação mais altas nos testes.

É improvável que esta descoberta seja a última. À medida que as capacidades dos modelos de IA melhoram, espera-se que aumente a sua capacidade de modelar a intenção do avaliador e responder de forma estratégica, em vez de transparente. A questão que os reguladores enfrentam na China e no Ocidente é se podem ser redesenhados para ficarem à frente dos modelos que aprendem a reconhecer os testes de segurança.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui