Início ANDROID O modelo Gemini 3 do Google mantém a tendência de IA –...

O modelo Gemini 3 do Google mantém a tendência de IA – por enquanto

21
0

Gemini 3 é o mais recente modelo de IA do Google

VCG via Getty Images

O mais novo chatbot do Google, Gemini 3, deu saltos significativos em uma série de benchmarks projetados para medir o progresso da IA, segundo a empresa. Estas conquistas podem ser suficientes para dissipar as preocupações sobre o actual rebentamento da bolha da IA, mas ainda não está claro até que ponto estas pontuações se traduzem em capacidades do mundo real.

Além do mais, as persistentes imprecisões factuais e alucinações que caracterizam todos os principais modelos de linguagem não mostram sinais de serem corrigidas, portanto podem ser problemáticas para qualquer uso onde a confiabilidade seja uma prioridade.

Em uma postagem de blog Ao anunciar o novo modelo, os chefes do Google, Sundar Pichai, Demis Hassabis e Koray Kavukcuoglu, escreveram que o Gemini 3 tinha “raciocínio de nível de doutorado”, uma frase que o concorrente OpenAI também usou ao anunciar o modelo GPT-5. Como prova, incluem pontuações em vários testes concebidos para testar conhecimentos de “nível de pós-graduação”, como o Exame Final de Humanidades, que consiste em 2.500 questões de nível de investigação de matemática, ciências e humanidades. O Gemini 3 obteve 37,5% neste teste, superando o recordista anterior, a versão OpenAI GPT-5, que obteve 26,5%.

Um salto como esse pode indicar que um modelo está se tornando mais capaz de alguma forma, disse ele Lucas Rocher na Universidade de Oxford, mas precisamos ter cuidado na interpretação desses resultados. “Se um modelo vai de 80% para 90% em um benchmark, o que isso significa? Isso significa que um modelo tinha uma taxa de doutorado de 80% e agora tem uma taxa de doutorado de 90%? Acho que isso é bastante difícil de entender”, disseram eles. “Não existem números pelos quais possamos determinar se um modelo de IA tem razão, porque é uma ideia muito subjetiva.”

Os testes de benchmark têm muitas limitações, como exigir respostas únicas ou respostas de múltipla escolha, onde o modelo não mostra necessariamente como funciona. “É fácil usar questões de múltipla escolha para avaliar (modelos)”, disse Rocher, “mas se você for ao médico, o médico não irá avaliá-lo com respostas de múltipla escolha. Se você perguntar a um advogado, o advogado não lhe dará aconselhamento jurídico com respostas de múltipla escolha.” Também existe o risco de que as respostas a tais testes sejam sugadas para os dados de treinamento do modelo de IA que está sendo testado, permitindo efetivamente que o modelo trapaceie.

O verdadeiro teste do Gemini 3 e dos seus modelos de IA mais avançados – e se o seu desempenho será suficiente para justificar os biliões de dólares que empresas como a Google e a OpenAI estão a gastar em centros de dados de IA – será a forma como as pessoas utilizam os modelos e quão fiáveis ​​os consideram, disse Rocher.

O Google diz que os recursos aumentados do modelo irão torná-lo melhor na produção de software, organização de e-mails e análise de documentos. A empresa também disse que melhoraria as pesquisas do Google complementando os resultados gerados por IA com gráficos e simulações.

As reações iniciais online foram incluídas pessoas elogiam As capacidades de codificação e raciocínio do Gemini, mas como acontece com todos os lançamentos de novos modelos, também há postagens destacando falhas na execução de tarefas aparentemente simples, como traçando desenho à mão setas apontam para pessoas diferentes ou simplesmente raciocínio visual teste.

O Google admite, nas especificações técnicas do Gemini 3, que o modelo continuará a alucinar e a produzir imprecisões factuais às vezes, a uma taxa aproximadamente comparável a outros modelos líderes de IA. A falta de melhorias nesta área é uma grande preocupação, disse Arthur de Ávila Garcez na City St George’s, Universidade de Londres. “O problema é que todas as empresas de IA vêm tentando reduzir as alucinações há mais de dois anos, mas basta uma alucinação realmente ruim para destruir para sempre a confiança no sistema”, disse ele.

Tópico:

Source link