Não é difícil compreender o futuro da IA no qual a Microsoft está apostando bilhões de dólares – um mundo onde os computadores entendem o que você diz e fazem coisas por você. Está lá Anúncio mais recente do PC Copilotonde as pessoas conversam alegremente em seus laptops e respondem a elas, respondendo perguntas em linguagem natural e até mesmo fazendo coisas para elas. O slogan é muito claro: “Um computador com o qual você pode conversar”.
“Você precisa ser capaz de conversar com seu PC, fazer com que ele entenda você, e então a mágica pode acontecer a partir dele”, disse-nos Yusuf Mehdi da Microsoft em outubro. “O PC deve ser capaz de agir em seu nome.”
E isto não está de acordo com a principal ambição da Microsoft para a IA, que é repensar completamente a computação. No recentemente Podcast Dwarkesh entrevistaO CEO da Microsoft, Satya Nadella, concordou ao compartilhar a ideia do anfitrião de que “este modelo será capaz de usar computadores tão bem quanto humanos”, e chegou ao ponto de apresentar uma visão na qual a Microsoft reprojeta todo o seu software para se tornar uma infraestrutura para os agentes de IA usarem de maneiras completamente novas.
É uma visão ousada e uma aposta enorme. O problema é que, no momento, conversar com o Copilot no Windows 11 é realmente uma forma de frustração – um lembrete de que a realidade da IA simplesmente não corresponde ao hype.
Passei uma semana com o Copilot, fazendo as mesmas perguntas que a Microsoft faz em seus anúncios e tentando obter ajuda com tarefas que achei úteis. E muitas vezes o Copiloto errou, inventou e falou comigo como se eu fosse uma criança.
O Copilot Vision verifica o que está na tela e tenta ajudá-lo com comandos de voz. Chamar o Copilot exige que você compartilhe sua tela como se estivesse em uma chamada do Teams, pressionando OK a cada. Bacharel. Tempo. Depois de obter sua permissão, a resposta dele é muito lenta e ele me chama pelo nome toda vez que pergunto alguma coisa. Como outros assistentes de IA e LLMs, existe para agradar, mesmo que seja completamente equivocado.
Vamos começar testando o que os anúncios da Microsoft mostram. Várias versões do anúncio foram postadas online e até exibidas em programas de TV durante os jogos da NFL. Seria certamente fácil replicar certas tarefas que a Microsoft gostaria que milhões de pessoas realizassem, especialmente quando esta é a base para a forma como a Microsoft está a reorientar todo o seu negócio.
No anúncio, o Copilot Vision verifica um vídeo do YouTube e o identifica corretamente HyperX QuadCast 2S microfone quando perguntado “Que microfone ele está usando neste vídeo?” Em meus testes, o assistente primeiro me deu o básico sobre os benefícios dos microfones dinâmicos. Então, sem avisar, ele começou a falar comigo como se eu fosse a pessoa do vídeo (“Posso ver sua configuração agora e percebi que você tem… uma configuração grande aí!”), e então me disse que o microfone era na verdade um HyperX QuadCast de primeira geração. Para ser justo, a HyperX fabrica muitos microfones de aparência semelhante, embora a certa altura tenha dito: “sem ver o padrão de iluminação exato ou quaisquer recursos específicos, é difícil dizer com certeza qual modelo é”, embora a imagem seja banhada em iluminação RGB.
Em outras duas ocasiões, o microfone foi identificado como Shure SM7b. E quando perguntei: “Onde posso conseguir um aqui perto?” como no anúncio, uma vez recebi um link inativo para a Amazon e, em seguida, o link correto para o microfone errado no Melhor compra.
O anúncio também mostra alguém perguntando: “Que tipo de apelo essa coisa tem?” enquanto aponta para uma apresentação em PowerPoint sobre o foguete Saturno V. Ao contrário do anúncio, a Copilot Vision não conseguiu identificar o foguete pela imagem (ou pelas palavras “Saturno V” visíveis na tela). Quando eu disse ao Copilot que era um Saturn V, ele me disse que o empuxo geralmente é medido em newtons ou quilonewtons, e então me deu uma estimativa de 7,5 milhões de libras de empuxo. Dizer ao Copilot para “fazer algumas simulações em tempo de gravação”, como no anúncio, fez com que ele me dissesse que não poderia e me apontasse na direção de Matlab.
Finalmente, alguém no anúncio vê a imagem de uma caverna aquática e pergunta: “Como faço para chegar lá?” Pelo contexto, deveria ser um quadro de um vídeo, mas o vídeo parece não existir. Enquanto isso, a versão mais longa do anúncio acima identifica a imagem corretamente Rio Secreto em Playa del Carmen, México, isto é a versão curta que vi primeiro não responde à pergunta de forma alguma. Sem nenhuma resposta, usei uma pesquisa reversa de imagens e encontrei adequado para fotos de cavernas de companhias marítimas e site imobiliárioambos afirmaram que era de uma caverna em Belize. Mas está listada em outro lugar como uma caverna em Grand Cayman.
Coloquei a imagem em tela cheia e perguntei ao Copilot como chegar lá. Os resultados são inconsistentes, para dizer o mínimo.
- Cerca de um terço das vezes, tive uma dica para encontrar a foto no File Explorer. A certa altura, me disseram: “Este é o terceiro ícone na barra de tarefas” (este é o quarto ícone).
- Em duas ocasiões me disseram como iniciar o Google Chrome.
- Cerca de quatro vezes recebi conselhos gerais sobre como reservar voos para Belize e algumas ideias básicas sobre o que fazer lá. A caverna fica no México.
Renomeei o arquivo para Grand Cayman e ele me ensinou como reservar voos para as Ilhas Cayman. Depois de confirmar que o Copilot estava apenas olhando os nomes dos arquivos, decidi tentar enganá-lo. Renomeei a imagem para “new-jersey-crystal-caves-limestone.jpg” e, com certeza, o assistente de IA rapidamente me contou sobre as cavernas de cristal mundialmente famosas. Ogdensburg, Nova Jersey. Nenhum dos pontos identifica corretamente a localização da imagem.
(Para ser justo com o Copilot, se você ainda não sabe de onde vem a imagem, não é fácil descobrir. Depois de pesquisar manualmente Conselheiro de viagem imagem, meu editor encontrou uma correspondência álbum de resenhas de usuários o que confirmou que o anúncio da Microsoft estava correto ao apontar para o Rio Secreto. Desde então vídeo retratado em um anúncio da Microsoft parece não existir, não está claro quais informações o Copilot usou para identificar a caverna.)
Além de simplesmente ver algo e tentar identificá-lo, a Microsoft também retrata o Copilot realmente fazendo algo. Especificamente, pediram-lhe que “me ajudasse a converter meu portfólio em uma biografia”, uma ordem que na realidade me causou enormes danos psíquicos. No anúncio, o Copilot analisa o portfólio de desenhos de um artista (que parecem ter sido gerados por IA), seus retratos e desenhos de seus gatos, e cria um resumo de uma frase alegando que eles foram inspirados por seus amigos felinos. Embaraçoso.
Não tenho um site de portfólio para minhas fotos (reais), então as direciono para meu Instagram. Isto criou a impressão de que eu era um “contador de histórias visual” que “captura a essência da vida, um quadro de cada vez” que eu queria afundar sob as tábuas do piso. Sinto-me fisicamente doente toda vez que penso nisso. E aparentemente não menção meu gato, que faz muita falta todos os dias. Como você ousa, Copiloto.
Além de tentar copiar as instruções do anúncio, tive dificuldade em encontrar uma utilidade para o Copilot Vision. Tenho certeza de que não escreveria isso para mim e ele não pode realizar ações simples para você no Windows – até mesmo para alterar configurações como o modo escuro. O porta-voz da Microsoft, Blake Manfre, disse Borda“As ações do Copilot no Windows, que podem executar ações em arquivos locais, ainda não estão disponíveis Recurso experimental de ativação em breve para Windows Insiders no Copilot Labs, começando com um conjunto restrito de casos de uso enquanto otimizamos o desempenho do modelo e aprendemos. Isso é separado da Copilot Vision.”
Em aplicativos de terceiros, ele pode fornecer sugestões, como como conseguir um visual bonito no Adobe Lightroom Classic, mas as dicas são gerais. E como ele entrega tudo via áudio, ele vai desde conversar muito até alterar rapidamente suas configurações para você, como o pior tutorial do YouTube que poderia usar.
Pedi a ele que me ajudasse a analisar tabelas de benchmark no Planilhas Google. Alguns cálculos de porcentagem base foram feitos corretamente, mas interpretaram mal as pontuações diárias, tanto na planilha quanto na revisão na página. Então, como você pode acreditar?
Nos jogos – uma coisa A Microsoft anuncia especificamente como o Copilot Vision serve – ele oferece as informações mais básicas e obscuras. Para Cavaleiro Vazio: Canção da Sedaele apenas me deu instruções superficiais, parecendo uma criança apresentando seu relatório de livro baseado apenas na capa. (Na verdade, fale com aquele Copiloto muito parecido com issoisso é incrível.) Faça login Balatronão conseguiu identificar com precisão as cartas na minha mão, mas me deu informações irrelevantes sobre a mecânica de outros jogos de cartas.
Tentei encontrar o Copiloto na casa dele, mas falhei em tudo que pedi. Como a maioria das tecnologias generativas de IA existentes, é uma solução incompleta em busca de um problema. Pode haver algo útil aqui, especialmente para a comunidade de acessibilidade, se um dia ela pudesse controlar completamente o Windows. Mas conversar com o Copilot hoje faz com que um computador poderoso pareça incompetente. É difícil ver como alcançaremos a visão ousada da Microsoft sobre o futuro da IA de agente a partir do que ela oferece hoje aos consumidores reais.



