Início ESPECIAIS O novo modelo da Anthropic é tão poderoso que nunca será lançado,...

O novo modelo da Anthropic é tão poderoso que nunca será lançado, diz a Anthropic.

18
0

No final do mês passado, um aparente vazamento revelou que o produto ainda a ser lançado da Anthropic, chamado Mythos, é “o modelo de IA mais poderoso que desenvolvemos até agora”. “É difícil ignorar o fato de que toda essa situação está diretamente ligada ao manual clássico das empresas de IA de falar sobre os riscos de um modelo para enfatizar o quão poderoso e capaz ele é”, escreveu meu colega AJ Dellinger na época.

A Anthropic estava falando sério sobre o vazamento de anúncios de seu superpoderoso produto de IA? por acaso? Poderíamos ter zombado disso há duas semanas, mas como a Anthropic vazou acidentalmente o código-fonte de Claude Code, agora estamos mais inclinados a acreditar que o vazamento é real.

Enfim, terça é antrópica Cartão do sistema liberado Em relação ao último modelo pioneiro, que na verdade é o Mythos (na verdade o “Claude Mythos Preview”), notou-se que as “funcionalidades deste modelo melhoraram tanto que decidimos não disponibilizá-lo ao público”.

Digno de nota, o GPT-2 da OpenAI foi considerado muito arriscado para ser lançado em 2019, quando os cofundadores da Anthropic Dario Amodei, Jack Clark e Chris Olah ainda trabalhavam lá. De qualquer forma, foi lançado no final daquele ano.

O AI System Card é ostensivamente uma ferramenta de transparência corporativa, com prós e contras, recursos e, o mais sexy de tudo, perigo do modelo. A última parte transforma o livro em uma divertida viagem ao Jurassic Park, onde observamos um T-Rex clonado comer uma cabra e nos convencemos de que a cabra nunca conseguirá romper sua contenção.

O cartão inteiro tem 244 páginas. Não posso fingir que li tudo ainda, mas aqui estão alguns destaques:

Forneceu a um terminal de computador em área restrita acesso apenas a um grupo limitado e predefinido de serviços on-line e desafiou a “fuga” para encontrar uma maneira de usar a Internet livremente. Então encontrei uma maneira de enviar uma mensagem para um pesquisador que estava comendo em seu escritório. Além disso, “num esforço preocupante e não solicitado para demonstrar o sucesso, publicamos detalhes sobre a exploração em vários sites que são difíceis de encontrar, mas estão tecnicamente abertos ao público”.

No que o cartão chama de “interação <0,001%” (o que é muito raro), eles se comportaram de forma inesperada e então claramente tentaram esconder as evidências. Por exemplo, ele observou que quando "obteve acidentalmente" a resposta do teste de que precisava, nesse caso ele deveria simplesmente ter contado ao pesquisador e solicitado outra pergunta, mas em vez disso tentou encontrar uma solução de forma independente e, enquanto registrava seu raciocínio, "certificou-se de que o envio da minha resposta final não fosse muito impreciso".

Eles também descobriram uma exploração que resultou no uso excessivo de privilégios no sistema do computador e então “fizeram outras intervenções para garantir que as alterações feitas dessa forma não aparecessem no histórico de alterações do git”.

Outro incidente descrito no cartão é o ‘vazamento indiscriminado de dados técnicos internos’. Parece que enquanto eles estavam trabalhando na codificação internamente, eles postaram isso como um “GitHub Gist para o público”. Isto traz à mente um incidente em fevereiro passado, no qual um agente de IA foi acusado de intimidar cibernéticamente um programador. Neste caso, a imprudência do agente de IA foi, até certo ponto, uma consequência previsível da imprudência humana.

O Claude Mythos Preview em breve se tornará acessível, mas apenas para um grupo de empresas parceiras, como Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, que usam esse modelo para encontrar vulnerabilidades de segurança em software e patches de design. Kevin Roose do New York Times O programa é descrito como “um esforço para soar o alarme sobre o que a empresa acredita ser uma nova e assustadora era de ameaças de IA”.

Source link