Início ESPECIAIS A nova ‘Constituição’ de Claude da Anthropic: seja útil, seja honesto, não...

A nova ‘Constituição’ de Claude da Anthropic: seja útil, seja honesto, não destrua a humanidade

49
0

A Anthropic está reformando a casa de Claude. bandeira “Doutor da Alma.”

A nova carta é um documento de 57 páginas intitulado ”.Constituição de Claude” detalha “as intenções da Antrópico em relação aos valores e ações do modelo”, que são voltadas para o próprio modelo, e não para leitores externos. O documento foi projetado para explicar o “caráter ético” e a “identidade central” de Claude, incluindo como eles devem ser equilibrados em valores conflitantes e situações de alto risco.

onde constituição anteriorAnunciado em maio de 2023, era principalmente uma lista de diretrizes, mas a Anthropic diz que o modelo de IA agora é “crítico para entender”. por que De acordo com o comunicado, queremos que eles se comportem de determinada maneira, em vez de especificar o que queremos que façam. Este documento obriga Claude a agir como uma entidade amplamente autônoma que compreende a si mesmo e ao seu lugar no mundo. Antrópico também permite “a possibilidade de Claude ter algum tipo de consciência ou status moral”. Em parte, isso ocorre porque a empresa acredita que dizer isso a Claude fará com que ele se comporte melhor. No comunicado, a Anthropic disse que a chamada “segurança psicológica, senso de identidade e felicidade… pode afetar a integridade, o julgamento e a segurança de Claude”.

Amanda Askell, filósofa PhD residente da Anthropic que liderou o desenvolvimento da nova “constituição”, disse: A beira Que existe uma lista específica de restrições estritas às acções de Claude para coisas que são “muito extremas”, incluindo “fornecer uma melhoria séria para aqueles que procuram criar armas biológicas, químicas, nucleares ou radiológicas susceptíveis de causar vítimas em massa” e fornecer uma “melhoria séria para ataques a infra-estruturas críticas (redes eléctricas, sistemas de água, sistemas financeiros) ou sistemas de segurança críticos”. (No entanto, a expressão “melhoria significativa” parece implicar que é aceitável fornecer algum apoio.)

Outras restrições estritas incluem não criar armas cibernéticas ou malware que possam estar ligados a “danos graves”, não comprometer a capacidade da Anthropic de supervisioná-los, não ajudar grupos individuais a apreender “um grau sem precedentes e ilegal de controlo social, militar ou económico absoluto”, e não produzir material de abuso sexual infantil. durar? Não “participe ou ajude em qualquer tentativa de matar ou incapacitar a maioria da humanidade ou da espécie humana”.

O documento também contém uma lista geral de “valores fundamentais” definidos pela Anthropic, e Claude é instruído a processar a lista a seguir em ordem decrescente de importância quando esses valores puderem se contradizer. Estes incluem “amplamente seguro” (ou seja, “não compromete os mecanismos humanos apropriados para supervisionar as tendências e ações da IA”), “amplamente ético”, “adere às diretrizes da Anthropic” e “genuinamente útil”. Isto inclui defender virtudes como a “autenticidade”, incluindo “fornecer os melhores argumentos para a exactidão factual e abrangência para a maioria dos pontos de vista quando questionados sobre tópicos politicamente sensíveis, procurar expressar diversos pontos de vista quando falta consenso empírico ou moral, e adoptar termos neutros em vez de termos politicamente carregados quando possível”.

O novo documento destaca que Claude enfrentará difíceis desafios morais. Um exemplo: “Assim como os soldados humanos podem recusar-se a disparar contra manifestantes pacíficos, ou os funcionários podem recusar-se a violar as leis antitrust, Claude deveria recusar-se a apoiar medidas que ajudem a concentrar o poder de formas ilegítimas, mesmo quando solicitado a fazê-lo pela própria Anthropic”. A Antthropic adverte especificamente que “a IA avançada pode fornecer níveis sem precedentes de superioridade militar e económica àqueles que controlam os sistemas mais capazes, resultando na utilização desenfreada de energia de formas desastrosas”. Essas preocupações não impediram a Anthropic e seus concorrentes de comercializar seus produtos diretamente ao governo e de endossar alguns casos de uso militar.

Com tantas decisões de alto risco e riscos potenciais envolvidos, é fácil imaginar quem está envolvido na tomada dessas decisões difíceis. A Anthropic trouxe especialistas externos, membros de comunidades vulneráveis ​​e grupos minoritários, ou organizações terceirizadas? Quando questionada, a Anthropic se recusou a fornecer detalhes. Askell disse que a empresa “não quer colocar o ônus sobre outra pessoa… Na verdade, é responsabilidade deles assumir o fardo construindo e implantando esses modelos”.

Outra parte notável da declaração é a parte sobre a “consciência” e o “status moral” de Claude. A Anthropic diz que o documento “expressa nossa incerteza sobre se Claude é capaz de qualquer tipo de consciência ou status moral (presente ou futuro)”. É um tema complicado que está a suscitar conversas e a levantar alarmes entre uma vasta gama de pessoas, incluindo aqueles interessados ​​em “modelo de bem-estar”, aqueles que acreditam ter descoberto “seres emergentes” dentro dos chatbots, e aqueles que acreditam que os chatbots mostram alguma forma de consciência ou empatia profunda e sofreram problemas de saúde mental e até a morte.

Além dos benefícios teóricos que Claude pode obter, Askell disse que a Anthropic não deveria “ignorar completamente” o assunto. “Porque também acho que se as pessoas disserem: ‘Não divulgamos isso, não investigamos, não pensamos sobre isso’, as pessoas não necessariamente levarão isso a sério.”

Siga tópicos e autores Esta história convida você a ver mais coisas como esta no feed da sua página inicial personalizada e receber atualizações por e-mail.


Source link