Quando o lançamento de um modelo de IA gera imediatamente memes e panfletos proclamando que o resto da indústria está maduro, você sabe que tem algo que vale a pena dissecar.
O Google Gemini 3 foi lançado na terça-feira com muito alarde. Empresa chamado esse modelo representa uma “nova era de inteligência”, integrando-a à Pesquisa Google desde o primeiro dia, pela primeira vez. Ele superou o OpenAI e outros produtos concorrentes em uma variedade de benchmarks e liderou as paradas no LMArena, uma plataforma de avaliação de IA de crowdsourcing que é essencialmente uma classificação Billboard Hot 100 de modelos de IA. Nas 24 horas após seu lançamento, mais de um milhão de usuários experimentaram o Gemini 3 no Google AI Studio e na API Gemini, de acordo com o Google. “Do ponto de vista da adoção no primeiro dia, este é o melhor que vimos de todos os nossos lançamentos de modelo”, disse Logan Kilpatrick do Google DeepMind, líder de produto do AI Studio e Gemini API do Google. Borda.
Até o CEO da OpenAI, Sam Altman, e o CEO da xAI, Elon Musk, parabenizaram publicamente a equipe Gemini pelo trabalho bem executado. E o CEO da Salesforce, Marc Benioff escrever que depois de usar o ChatGPT todos os dias durante três anos, passar duas horas no Gemini 3 mudou tudo: “Meu Deus… nunca mais vou voltar atrás. O salto é uma loucura — raciocínio, velocidade, imagens, vídeo… tudo está mais nítido e rápido. Parece que o mundo mudou novamente.”
“Isso é mais do que apenas uma mudança na tabela de classificação”, disse Wei-Lin Chiang, cofundador e CTO da LMArena. Chiang disse Borda que o Gemini 3 Pro detém “um líder claro” em categorias de trabalho, incluindo codificação, correspondência e escrita criativa, e seus recursos de codificação de agência “em muitos casos agora superam os principais modelos de codificação como Claude 4.5 e GPT-5.1”. O modelo também conquistou o primeiro lugar em compreensão visual e foi o primeiro modelo a ultrapassar a pontuação de aproximadamente 1.500 no placar de texto da plataforma.
O desempenho desses novos modelos, disse Chiang, “ilustra que a corrida armamentista da IA está se transformando em modelos que podem fornecer raciocínio mais abstrato, generalizar de forma mais consistente e fornecer resultados confiáveis em um conjunto cada vez mais diversificado de avaliações do mundo real”.
Alex Conway, principal engenheiro de software da DataRobot, disse Borda que um dos avanços mais notáveis do Gemini 3 está em um benchmark de raciocínio personalizado chamado ARC-AGI-2. Gemini teve pontuação quase duas vezes maior que OpenAI GPT-5 Pro e custou apenas um décimo do custo por tarefa, disse ele, o que “realmente desafia a noção de que esses modelos não estão progredindo”. E no benchmark SimpleQA – que envolve perguntas e respostas simples sobre uma variedade de tópicos e requer muito conhecimento especializado – o Gemini 3 Pro obteve pontuação duas vezes maior que o GPT-5.1 da OpenAI, disse Conway. “Se usado caso a caso, seria ótimo para tópicos de nicho e para mergulhar em pesquisas e campos científicos de ponta”, disse ele.
Mas as tabelas de classificação não são tudo. É possível – e no mundo estressante da IA, é tentador – treinar modelos para benchmarks restritos em vez de atingir o sucesso geral. Portanto, para realmente saber o desempenho de um sistema, você precisa contar com testes do mundo real, experiências anedóticas e casos de uso complexos existentes.
Borda converse com profissionais de todas as disciplinas que usam IA todos os dias para trabalhar. O consenso: o Gemini 3 parece impressionante e faz bem seu trabalho em uma ampla variedade de tarefas – mas quando se trata de casos pequenos e aspectos de nicho em determinados setores, muitos profissionais não substituirão seu modelo atual por um tão cedo.
A maioria das pessoas Borda falou sobre planos de continuar usando Claude Anthropic para suas necessidades de codificação, apesar dos avanços do Gemini 3 nessa área. Alguns também dizem que o Gemini 3 não é ideal em termos de interação do usuário. Tim Dettmers, professor assistente da Carnegie Mellon University e cientista pesquisador da Ai2, disse que embora seja um “ótimo modelo”, em termos de UX, é um pouco grosseiro, o que significa “não segue exatamente as instruções”.
Tulsee Doshi, diretor sênior de gerenciamento de produtos do Google DeepMind para Gemini e Gen Media, disse Borda que a empresa está priorizando trazer o Gemini 3 para os produtos do Google de uma “forma muito tangível”. Quando questionado sobre preocupações em seguir as instruções, ele disse que seria útil ver “onde as pessoas atingem alguns dos pontos-chave”.
Ele também disse que, como o modelo Pro é o primeiro lançamento do pacote Gemini 3, os modelos futuros ajudarão a “resolver essas preocupações”.
Joel Hron, CTO da Thomson Reuters, disse que a empresa tem seus próprios benchmarks internos desenvolvidos para classificar modelos internos e modelos públicos nas áreas mais relevantes para o seu trabalho – como comparar dois documentos com várias centenas de páginas, interpretar documentos longos, compreender contratos legais e raciocinar nas áreas jurídica e tributária. Ele disse que até agora, o Gemini 3 teve um forte desempenho em todas essas plataformas e é um “salto significativo em relação ao Gemini 2.5”. Ele também supera alguns dos modelos Antrópicos e OpenAI atuais em algumas dessas áreas.
Louis Blankemeier, cofundador e CEO da Cognita, uma startup de IA em radiologia, disse que em termos de “números puros” o Gemini 3 é “muito atraente”. Mas, disse ele, “ainda precisamos de tempo para descobrir a utilidade desses modelos no mundo real”. Em um plano mais geral, disse Blankemeier, Gemini 3 é uma estrela, mas quando ele brincou com ele para radiologia, teve dificuldade em identificar corretamente fraturas sutis de costelas em radiografias de tórax, bem como condições incomuns ou raras. Ele disse que a radiologia é semelhante aos carros autônomos em muitos aspectos, com muitos casos sendo complexos – portanto, modelos mais novos e mais potentes podem ainda não ser tão eficazes quanto os modelos mais antigos que foram refinados e treinados em dados específicos ao longo do tempo. “O mundo real é muito mais difícil”, disse ele.
Da mesma forma, Matt Hoffman, chefe de IA da Longeye, uma empresa que fornece ferramentas de IA para investigações policiais, viu potencial no gerador de imagens Nano Banana Pro com tecnologia Gemini 3 Pro. O gerador de imagens permite que Longeye crie conjuntos de dados sintéticos atraentes para testes, mantendo seguros dados investigativos reais e confidenciais. Embora os benchmarks sejam impressionantes, eles podem não corresponder aos casos reais de uso empresarial. “Não tenho certeza se a Longeye poderá trocar o modelo que usamos na produção pelo Gemini 3 e ver melhorias tão cedo”, disse ele.
Outras empresas também disseram estar interessadas no Gemini – mas não o estão necessariamente usando para substituir qualquer outra coisa. A Built, uma startup de empréstimos para construção, utiliza atualmente uma combinação de modelos básicos do Google, Anthropic, OpenAI e outros para analisar solicitações pull de construção – pacotes de documentos frequentemente enviados a credores para construção, como faturas e comprovantes de trabalho concluído, solicitando o pagamento de fundos. Isso requer análise multimodal de texto e imagens, além de uma grande janela de contexto para o agente principal delegar tarefas a outros, diz o vice-presidente de engenharia Thomas Schlegel. Borda. Isso é parte do que o Google prometeu com o Gemini 3, então a empresa está atualmente explorando a mudança para a versão 2.5.
“No passado, descobrimos que o Gemini era o melhor em tarefas multifuncionais e o 3 parece ser um grande passo em frente no mesmo sentido”, disse Schlegel. “É tudo o que amamos em Gêmeos com esteróides.” Mas ele ainda não acredita que o modelo substituirá todos os outros modelos, incluindo Claude para tarefas de codificação e produtos OpenAI por razões comerciais.
Para Tanmai Gopal, cofundador e CEO da plataforma de agentes de IA PromptQL, o entusiasmo gerado pelo Gemini 3 é compreensível, mas “definitivamente não é o fim” para os concorrentes do Google. Os modelos de IA estão cada vez melhores e mais baratos e, como têm ciclos de lançamento muito rápidos, “alguém está sempre à frente do jogo por um determinado período de tempo”. (Por exemplo, um dia após o lançamento do Gemini 3, OpenAI lançado GPT-5.1-Codex-Max, uma atualização para um modelo de uma semana atrás, parece estar desafiando o Gemini 3 em alguns benchmarks de codificação.)
Gopal disse que a PromptQL ainda está conduzindo avaliações internas para decidir como, se é que mudarão, as escolhas de modelo da equipe mudarão, mas “os resultados iniciais não mostram necessariamente algo muito melhor” do que sua formação atual. Ele diz que suas preferências atuais são Claude para codificação, ChatGPT para navegação na web e GPT-5 Pro para “brainstorming aprofundado”, mas ele pode usar o Gemini 3 como modelo padrão, pois é “provavelmente o melhor da categoria para tarefas de consumo em criativos, texto (e) imagens”.
E como quase todo modelo, o Gemini 3 tem momentos do que chamo de “síndrome da mão robótica” — quando o sistema de IA faz algo complexo com cores vivas, mas se surpreende com as perguntas mais simples, semelhante às mãos robóticas do passado que lutavam para segurar latas de refrigerante. O renomado pesquisador Andrej Karpathy, membro fundador da OpenAI e ex-diretor de IA da Tesla, escrever sobre se recusou a acreditar quando ele disse que era 2025 e depois disse que esqueceu de ativar a Pesquisa Google. (Ele confirmou que nos testes iniciais, pode ter recebido um modelo com um sistema de alerta desatualizado.)
No BordaCom base em minha própria experiência testando o Gemini 3, descobrimos que “ele teve um desempenho muito bom – com uma ressalva”. Provavelmente não durará para sempre, mas é um claro avanço para a empresa.
“Você está pulando de modelo em modelo, mês a mês, à medida que novos modelos são lançados”, disse Hron. “Mas o que é interessante para mim sobre o lançamento do Google é que ele traz grandes melhorias em muitas dimensões do modelo – então não é como se o modelo apenas melhorasse na codificação ou apenas melhorasse no raciocínio… No geral, o modelo fica melhor.”



