Quase dois anos se passaram desde que o CEO da Microsoft, Satya Nadella, previu que a IA generativa assumiria o trabalho de conhecimento, mas se você olhar ao redor do escritório de advocacia ou banco de investimento médio de hoje, os recursos humanos ainda fazem parte disso. Apesar de todo o entusiasmo sobre “inferência” e “planejamento”, uma nova pesquisa da empresa de dados de treinamento Mercor explica exatamente por que a revolução da robótica estagnou. A IA não consegue lidar com a confusão do trabalho no mundo real.
Uma verificação da realidade das teorias “alternativas”.
A Mercor lançou um novo benchmark chamado APEX-Agents, e é brutal. Ao contrário dos testes típicos que pedem à IA para escrever poesia ou resolver problemas matemáticos, este teste utiliza consultas reais de advogados, consultores e banqueiros. Isso solicita que o modelo execute uma tarefa completa de várias etapas que requer movimentação entre diferentes tipos de informação.
Quais são os resultados? Mesmo os melhores modelos do mercado, como Gemini 3 Flash e GPT-5.2, não conseguem atingir 25% de precisão. Gêmeos lidera com 24%, seguido de perto por GPT-5.2 com 23%. A maioria dos outros ficou presa na adolescência.
Por que a IA falhou no ‘teste do Office’
O CEO da Mercor, Brendan Foody, ressalta que o problema não é a inteligência bruta. É contexto. No mundo real, as respostas não são dadas em uma bandeja de prata. Os advogados precisam verificar os tópicos do Slack, ler as políticas do PDF, consultar planilhas e, em seguida, reunir tudo para responder a perguntas sobre a conformidade com o GDPR.
Os humanos realizam essas mudanças de contexto naturalmente. A IA acaba sendo realmente terrível. Se você forçar esses modelos a buscar informações em fontes “dispersas”, eles ficarão confusos, darão respostas incorretas ou desistirão totalmente.
‘Estagiário não confiável’
Para qualquer pessoa preocupada com a segurança no emprego, isso oferece algum alívio. Estudos demonstraram que a IA atual funciona mais como estagiários não confiáveis, que realizam bem apenas cerca de um quarto do trabalho, do que como especialistas experientes.
Isso significa que o progresso é incrivelmente rápido. Foody observou que há apenas um ano, esses modelos pontuavam entre 5% e 10%. Agora eles estão em 24%. Portanto, eles ainda não estão prontos para dirigir, mas estão aprendendo a dirigir muito mais rápido do que esperávamos. Mas, por enquanto, a revolução do “trabalho do conhecimento” está em espera até que os bots aprendam a realizar multitarefas.



