Seis meses depois de renegociar um contrato que antes a proibia de prosseguir de forma independente a IA de ponta, a Microsoft lançou três modelos internos que desafiam diretamente os parceiros que gastou 13 mil milhões de dólares para cultivar. MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 agora estão disponíveis no Microsoft Foundry e não têm o nome do OpenAI listado em nenhum lugar dos rótulos.
O modelo é o primeiro resultado disponível publicamente da equipe MAI Superintelligence, que o CEO da Microsoft AI, Mustafa Suleyman, formou em novembro de 2025 com a missão de buscar o que a empresa chama de “superinteligência humanística”. No primeiro memorando interno de março Relatado por Business InsiderSuleyman escreveu que planeja concentrar toda a sua energia na superinteligência e fornecer à Microsoft um modelo de classe mundial nos próximos cinco anos. Essa ambição tem agora a sua primeira evidência tangível.
No papel, o MAI-Transscribe-1 é o mais imediatamente perturbador dos três. O modelo de fala para texto afirma a menor taxa de erro de palavras (3,8% em média) em 25 idiomas no benchmark FLEURS, e a Microsoft diz que o modelo supera o Whisper-large-v3 da OpenAI, o Gemini 3.1 Flash do Google (22 de 25) e o Scribe v2 da ElevenLabs (15 de 25) em todos os 25 idiomas. Ele roda 2,5x mais rápido que o anterior guerreiro Azure Fast da Microsoft. Este serviço custa US$ 0,36 por hora de áudio. Talvez o mais notável seja que a equipe que o criou era composta por 10 pessoas.
MAI-Voice-1 completa o loop de áudio. O modelo de conversão de texto em fala gera 60 segundos de áudio natural em menos de 1 segundo em uma única GPU e oferece suporte à geração de fala personalizada a partir de alguns segundos de áudio amostrado. Combinado com o MAI-Transscribe-1 e um grande modelo de linguagem à escolha do cliente, ele forma um pipeline de fala completo que funciona inteiramente na infraestrutura da Microsoft, sem depender da tecnologia OpenAI.
Espaço de coworking da cidade de TNW – onde o melhor trabalho acontece
Um espaço de trabalho projetado para crescimento, colaboração e oportunidades infinitas de networking no centro da tecnologia.
MAI-Image-2, o mais antigo dos três, já está Ele estreou em terceiro lugar na tabela de classificação de imagem de texto Arena.ai. Em março, ficou atrás do Gemini 3.1 Flash do Google e do GPT Image 1.5 da OpenAI. O modelo foi desenvolvido em colaboração com fotógrafos, designers e contadores de histórias visuais, e a WPP, um dos maiores grupos de marketing do mundo, foi um dos primeiros parceiros corporativos a implementar o modelo em escala.
O contexto estratégico é mais importante do que os benchmarks. Até a renegociação de setembro de 2025, o acordo de parceria original da Microsoft com a OpenAI impedia a empresa de buscar de forma independente o desenvolvimento geral de IA. O Memorando de Entendimento revisado muda fundamentalmente esse cálculo. A Microsoft manterá os direitos de licenciamento para tudo o que a OpenAI construir até 2032, garantirá US$ 250 bilhões em novos compromissos de negócios na nuvem Azure e, principalmente, a liberdade para construir modelos competitivos. Suleyman reconheceu diretamente este ponto de viragem. Ele disse que a renegociação do contrato permitiria à Microsoft buscar a superinteligência de forma independente.
O momento é intencional. Jacob Andreou, ex-vice-presidente sênior da Snap, assumiu como vice-presidente da Copilot em 17 de março, liberando Suleyman das responsabilidades diárias do produto. O modelo MAI chegou apenas duas semanas depois. A Microsoft também contratou Ali Farhadi, ex-CEO do Allen Institute for AI, para a equipe de superinteligência de Suleyman em março, sinalizando uma contratação cujas ambições vão muito além da transcrição e criação de imagens.
Para OpenAI, o desenvolvimento cria uma dinâmica estranha. A Microsoft continua sendo o maior investidor e principal fornecedor de infraestrutura em nuvem, e as duas empresas continuam a compartilhar uma plataforma na Foundry, que hospeda os modelos OpenAI e Microsoft. mas Impulsionando a monetização comercial do OpenAI Estão a acelerar em paralelo e a relação começa a assemelhar-se a duas empresas que circulam no mesmo mercado com produtos sobrepostos, em vez de uma parceria com uma clara divisão de trabalho. Apoiada pela SoftBank, Nvidia e Amazon, a OpenAI levantou US$ 110 bilhões em fevereiro passado, independentemente da Microsoft, valorizando a OpenAI em um nível que torna a estrutura de parceria original cada vez mais anacrônica.
O mercado mais amplo de modelos de IA está se segmentando em linhas semelhantes. A avaliação da Anthropic aumenta em US$ 30 bilhões, para US$ 380 bilhões Com receitas de US$ 14 bilhões, ela se estabeleceu como uma terceira força confiável em IA empresarial. O Google continua a iterar rapidamente no Gemini. Os dias em que OpenAI era o único jogo que oferecia recursos de IA de ponta e a Microsoft se contentava em ser o canal de distribuição exclusivo claramente acabaram.
Microsoft Foundry, uma plataforma anteriormente conhecida como Azure AI Foundry e antes disso Azure AI Studio (sua segunda reformulação em 12 meses), atualmente atende desenvolvedores em mais de 80.000 empresas, incluindo 80% da Fortune 500. Essas vantagens de implantação são o que torna a família de modelos MAI estrategicamente importante. A Microsoft não precisa superar o OpenAI em todos os benchmarks para transferir os gastos empresariais para modelos internos. Deve ser competitivo o suficiente para que os clientes escolham sua opção integrada em vez de alternativas de terceiros. Último ano de consolidação da indústria de IA Tornou-se cada vez mais plausível.
Suleyman disse que provavelmente levará mais um ou dois anos para que a equipe de superinteligência produza um modelo de linguagem de nível de fronteira. O que chegou esta semana é a base. É um kit de ferramentas multimodal que fornece à Microsoft voz, ouvidos e olhos próprios, separados do OpenAI. A parceria de US$ 13 bilhões nunca termina. Mas a premissa é que a Microsoft precisa do OpenAI para competir no espaço da IA. Foi desmontado silenciosamente, um lançamento de modelo de cada vez.



