Início ANDROID Cientistas constroem o teste de inteligência artificial mais difícil de todos os...

Cientistas constroem o teste de inteligência artificial mais difícil de todos os tempos e os resultados são surpreendentes

19
0

À medida que os sistemas de inteligência artificial começam a obter pontuações extremamente elevadas em padrões académicos de longa data, os investigadores estão a notar um problema crescente. Testes que antes desafiavam máquinas não são mais tão difíceis. Avaliações bem conhecidas, como o exame Massive Multi-Task Language Understanding (MMLU), eram anteriormente consideradas exigentes, mas agora não conseguem medir adequadamente as capacidades dos atuais modelos avançados de inteligência artificial.

Para resolver este problema, uma equipa de quase 1.000 investigadores de todo o mundo, incluindo professores da Texas A&M University, desenvolveu um novo teste. O seu objetivo é criar um teste que seja amplo, difícil e baseado na experiência humana, algo com que os atuais sistemas de inteligência artificial ainda enfrentam dificuldades.

O resultado é o Último Exame Humano (HLE), uma avaliação de 2.500 questões que abrange matemática, humanidades, ciências naturais, línguas antigas e uma ampla gama de áreas acadêmicas altamente especializadas. Detalhes do projeto apareceram em uma publicação no naturezapara obter mais informações sobre o exame, visite último exame.ai.

Um dos muitos contribuidores foi o Dr. Tung Nguyen, professor associado do Departamento de Ciência da Computação e Engenharia da Texas A&M. Nguyen ajudou a escrever e refinar muitas das questões do exame.

“Quando os sistemas de IA começam a funcionar muito bem em benchmarks humanos, é fácil pensar que estão se aproximando da compreensão do nível humano”, disse Nguyen. “Mas o HLE nos lembra que a sabedoria envolve não apenas o reconhecimento de padrões, mas também profundidade, contexto e experiência.”

O objetivo do exame não é enganar ou derrotar os participantes humanos. Em vez disso, o nosso objetivo é identificar cuidadosamente as áreas onde os sistemas de IA ainda são insuficientes.

Esforço global para avaliar os limites da inteligência artificial

Especialistas de todo o mundo escreveram e revisaram as questões incluídas no exame final para humanos. Cada pergunta é cuidadosamente elaborada para que tenha uma resposta clara e verificável. As perguntas também foram elaboradas para evitar respostas rápidas em pesquisas simples na web.

Esses tópicos são extraídos de Desafios Acadêmicos Avançados. Algumas tarefas envolvem a tradução de inscrições antigas de Palmira, enquanto outras exigem a identificação da anatomia minuciosa dos pássaros ou a análise de características detalhadas da pronúncia do hebraico bíblico.

Os pesquisadores testaram cada questão em relação aos principais sistemas de inteligência artificial. Se algum modelo conseguir responder corretamente a uma questão, essa questão será retirada do exame final. Este processo garante que os testes vão além do que os sistemas atuais de IA podem resolver de forma confiável.

Os primeiros testes confirmam que a estratégia funciona. Mesmo modelos poderosos de IA têm dificuldade em passar no teste. GPT-4o pontuou 2,7%, enquanto Claude 3.5 Sonnet pontuou 4,1%. O modelo o1 da OpenAI teve um desempenho ligeiramente melhor, com 8%. Os sistemas mais poderosos até hoje, incluindo Gemini 3.1 Pro e Claude Opus 4.6, alcançaram taxas de precisão entre aproximadamente 40% e 50%.

Por que é necessário um novo benchmark de inteligência artificial

Nguyen explicou que o problema da inteligência artificial superar os testes antigos não é apenas uma questão técnica. Ele contribuiu para 73 das 2.500 edições abertas da HLE, ocupando o segundo lugar entre os contribuidores, e é o autor da maioria das questões relacionadas à matemática e à ciência da computação.

“Sem ferramentas de avaliação precisas, os decisores políticos, os desenvolvedores e os utilizadores correm o risco de compreender mal as capacidades reais dos sistemas de IA”, disse ele. “Os benchmarks fornecem uma base para medir o progresso e identificar riscos.”

A equipe diz que pontuações altas em testes originalmente concebidos para humanos não indicam necessariamente inteligência verdadeira. Esses benchmarks medem principalmente a capacidade da IA ​​de concluir tarefas específicas criadas para alunos humanos, em vez de obter uma compreensão mais profunda.

Não é uma ameaça, mas uma ferramenta

Apesar do título dramático, “O Último Exame do Homem” não significa que a humanidade esteja se tornando obsoleta. Em vez disso, destaca a vasta quantidade de conhecimento e experiência que permanece exclusivamente humana.

“Esta não é uma corrida contra a inteligência artificial”, disse Nguyen. “É uma forma de compreender os pontos fortes e fracos destes sistemas. Esta compreensão ajuda-nos a construir tecnologias mais seguras e fiáveis. E, mais importante, lembra-nos porque é que a experiência humana ainda é importante.”

Estabelecendo uma referência de inteligência artificial de longo prazo

O Último Exame da Humanidade visa fornecer uma referência durável e transparente para futuros sistemas de inteligência artificial. Para apoiar esse objetivo, os pesquisadores divulgaram algumas perguntas publicamente, mas ocultaram a maioria para que os modelos de IA não pudessem simplesmente memorizar as respostas.

“Atualmente, O Último Exame da Humanidade é uma das avaliações mais claras da lacuna entre a inteligência artificial e a inteligência humana e, apesar dos rápidos avanços tecnológicos, a lacuna permanece grande”, disse Nguyen.

Esforços de pesquisa internacional em larga escala

Nguyen enfatizou que a escala do projeto demonstra o valor da colaboração interdisciplinar e nacional.

“O que é extraordinário neste projeto é a sua escala”, disse ele. “Especialistas de quase todas as disciplinas contribuíram. Não apenas cientistas da computação, mas também historiadores, físicos, linguistas, pesquisadores médicos. Essa diversidade é o que expõe as lacunas nos sistemas de inteligência artificial atuais — talvez ironicamente, seja um esforço humano coletivo.”

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui