Com base na mesma pesquisa do Gemini 3, a nova família se estende de um modelo de borda 2B rodando no Raspberry Pi até um modelo de densidade 31B atualmente classificado em 3º lugar na tabela de classificação do Arena AI Open Model. A licença Apache 2.0 mudou significativamente em relação às versões anteriores do Gemma.
O Google lançou Gemma 4.é a última geração de uma família de modelos abertos em quatro tamanhos projetados para cobrir tudo, desde inferência no dispositivo em smartphones até implantações em estações de trabalho.
O modelo é construído com a mesma pesquisa e tecnologia que sustenta o modelo de fronteira proprietário do Google, o Gemini 3, e é lançado sob a licença Apache 2.0, que tem termos mais permissivos do que as gerações anteriores do Gemma, mudanças descritas pelo cofundador da Hugging Face, Clément Delangue. “Um grande marco.”
Demis Hassabis, CEO do Google DeepMind, chamou o novo modelo de: “Para cada tamanho, são os melhores modelos abertos do mundo.”
Espaço de coworking da cidade de TNW – onde o melhor trabalho acontece
Um espaço de trabalho projetado para crescimento, colaboração e oportunidades infinitas de networking no centro da tecnologia.
As quatro variantes são os modelos de borda Efetivo 2B (E2B) e Efetivo 4B (E4B), projetados para serem executados no dispositivo em telefones celulares, Raspberry Pi e hardware Jetson Nano, desenvolvidos em colaboração com a equipe Pixel, Qualcomm e MediaTek. Modelos 26B Mixture-of-Experts (MoE) e 31B Dense voltados para uso off-line em hardware de desenvolvedor e GPUs de consumo.
O modelo 31B Dense atualmente ocupa o terceiro lugar entre todos os modelos públicos na tabela de classificação de texto da Arena AI. 26B MoE ficou em 6º lugar. O Google afirma que ambos os modelos maiores superam os modelos até 20 vezes o seu tamanho em seus benchmarks.
O peso não quantificado de 31B cabe em uma única GPU Nvidia H100 de 80 GB. A versão quantizada é executada em hardware de consumo.
Todos os quatro modelos são multimodais, processam vídeos e imagens nativamente e foram treinados em mais de 140 idiomas. Os modelos E2B e E4B suportam adicionalmente entrada de áudio básica para reconhecimento de voz. A janela de contexto tem 128 mil tokens para o modelo Edge e 256 mil para as duas variantes maiores.
Em termos de recursos, o Google destaca inferência aprimorada em várias etapas, chamadas de função nativa e saída JSON estruturada para fluxos de trabalho de agentes e geração de código offline. Em termos de desempenho, o Android Developer Blog afirma que o modelo E2B roda três vezes mais rápido que o E4B, enquanto toda a família Edge é até quatro vezes mais rápida que as versões anteriores do Gemma e consome até 60% menos bateria.
Os modelos E2B e E4B também são a base do Gemini Nano 4, o modelo de próxima geração do Google para dispositivos Android, que será lançado em dispositivos de consumo ainda este ano.
Desde o seu primeiro lançamento, Gemma acumulou mais de 400 milhões de downloads e 100.000 variantes criadas pela comunidade, números que o Google aponta como evidência da adoção em larga escala pelos desenvolvedores.
Gemma 4 está disponível imediatamente em Hugging Face, Kaggle e Ollama, com os modelos 31B e 26B acessíveis através do Google AI Studio e o modelo edge através da AI Edge Gallery.
A decisão de licenciamento do Apache 2.0 é o sinal comercial mais importante para o lançamento. Isso abre o ecossistema para uma gama mais ampla de casos de uso de produção, removendo restrições que dificultavam algumas implantações empresariais e comerciais sob os termos anteriores do Gemma.



