Quando as pessoas conversam cara a cara, quase metade da atenção é atraída para os movimentos dos lábios. Ainda assim, o robô lutou para mover a boca de forma convincente. Mesmo as máquinas humanóides mais avançadas muitas vezes dependem de movimentos bucais rígidos e exagerados, como fantoches, supondo que tenham um rosto.
Os humanos atribuem grande importância às expressões faciais, especialmente aos movimentos sutis dos lábios. Embora uma caminhada desajeitada ou gestos desajeitados possam ser perdoados, mesmo pequenos erros nos movimentos faciais tendem a se destacar imediatamente. Esta sensibilidade leva ao que os cientistas chamam de “vale misterioso”, um fenômeno no qual os robôs parecem mais perturbadores do que reais. O mau movimento dos lábios é uma das principais razões pelas quais os robôs parecem estranhos ou emocionalmente vazios, mas os pesquisadores dizem que isso pode mudar em breve.
Robô aprende a mover os lábios
Em 15 de janeiro, uma equipe da Columbia Engineering anunciou um progresso significativo na tecnologia robótica humanóide. Pela primeira vez, os pesquisadores construíram um robô que pode aprender os movimentos faciais dos lábios ao falar e cantar. Suas descobertas foram publicadas em robô científicomostrou o robô formando palavras em vários idiomas e até cantando uma música de seu álbum de estreia gerado por IA, Hello World_.
Em vez de confiar em regras predefinidas, o robô aprende através da observação. Ele descobriu pela primeira vez como controlar seu próprio rosto usando 26 motores faciais independentes. Para fazer isso, observou reflexos em espelhos e depois estudou horas de vídeos do YouTube sobre fala humana e canto para ver como as pessoas movem os lábios.
“Quanto mais interação tiver com os humanos, melhor será”, disse Hod Lipson, professor de inovação James e Sally Scarpa no Departamento de Engenharia Mecânica e diretor do Laboratório de Máquinas Criativas de Columbia.
Veja o link para o vídeo “Lip Sync Robot” abaixo.
O relógio robô fala por si
Criar movimentos labiais com aparência natural em um robô é particularmente difícil por dois motivos principais. Primeiro, requer hardware avançado, incluindo materiais faciais flexíveis e muitos motores pequenos que devem funcionar silenciosamente e em perfeita harmonia. Em segundo lugar, os movimentos labiais estão intimamente relacionados com a fala, que muda rapidamente e depende de sequências complexas de fonemas.
O rosto humano é controlado por dezenas de músculos sob a pele macia, permitindo que os movimentos fluam naturalmente com a fala. No entanto, a maioria dos rostos dos robôs humanóides são rígidos e têm movimentos limitados. Os movimentos dos lábios são frequentemente determinados por regras fixas, o que pode resultar em expressões robóticas e não naturais que podem ser perturbadoras.
Para enfrentar esses desafios, a equipe da Columbia projetou uma face de robô flexível com um grande número de motores e permitiu que o robô aprendesse o controle facial por conta própria. O robô foi colocado em frente a um espelho e começou a experimentar milhares de expressões faciais aleatórias. Tal como uma criança que explora o seu próprio reflexo, aprende gradualmente quais os movimentos que produzem formas faciais específicas. Esse processo se baseia no que os pesquisadores chamam de Modelo de Linguagem Visão para Ação (VLA).
Aprenda com palavras e músicas humanas
Depois de aprender como funcionava seu próprio rosto, o robô assistiu a vídeos de pessoas conversando e cantando. O sistema de IA analisa como o formato da boca muda com diferentes sons, permitindo que a entrada de áudio seja diretamente vinculada aos movimentos motores. Através de uma combinação de autoaprendizagem e observação humana, o robô pode converter sons em movimentos labiais sincronizados.
A equipe de pesquisa testou o sistema em vários idiomas, estilos de fala e exemplos musicais. Mesmo sem entender o significado do áudio, o robô consegue mover os lábios no tempo com base nos sons que ouve.
Os pesquisadores admitem que os resultados não são perfeitos. “Temos dificuldade especial com sons fortes como ‘B’ e sons como ‘W’, que envolvem franzir os lábios. Mas essas habilidades podem melhorar com o tempo e a prática”, disse Lipson.
Além da sincronização labial para a comunicação real
Os pesquisadores enfatizam que a sincronização labial é apenas uma parte de um objetivo mais amplo. Seu objetivo é fornecer aos robôs formas mais ricas e naturais de se comunicarem com as pessoas.
“Quando os recursos de sincronização labial são combinados com IA de conversação como ChatGPT ou Gemini, o efeito adiciona uma profundidade totalmente nova às conexões que os robôs formam com os humanos”, disse Yuhang Hu, que liderou a pesquisa como parte de sua tese de doutorado. “Quanto mais um robô observa a conversa humana, melhor ele se torna em imitar expressões faciais sutis com as quais podemos nos conectar emocionalmente.”
“Quanto mais longa a janela de contexto da conversa, mais sensíveis ao contexto esses gestos se tornam”, acrescentou Hu.
Expressões faciais são o elo que faltava
A equipe de pesquisa acredita que expressar emoções através do rosto representa uma grande lacuna na tecnologia robótica atual.
“A maioria dos robôs humanóides de hoje concentra-se no movimento das pernas e das mãos, para atividades como caminhar e agarrar”, disse Lipson. “Mas as expressões faciais são igualmente importantes para qualquer aplicação robótica que envolva interação humana.”
Lipson e Hu prevêem que as expressões faciais realistas se tornarão cada vez mais importantes à medida que os robôs humanóides forem introduzidos no entretenimento, na educação, nos cuidados de saúde e nos cuidados aos idosos. Alguns economistas estimam que mais de mil milhões de robôs humanóides serão produzidos na próxima década.
“No futuro, todos esses robôs humanóides não terão rostos. Quando finalmente tiverem rostos, precisarão mover os olhos e os lábios corretamente, ou permanecerão estranhos para sempre”, disse Lipson.
“É assim que nós, humanos, somos, não há nada que possamos fazer. Estamos prestes a cruzar o vale misterioso”, acrescentou Hu.
Risco e progresso responsável
O trabalho baseia-se nos esforços de longo prazo de Lipson para ajudar os robôs a formar conexões mais naturais com as pessoas, aprendendo comportamentos faciais como sorriso, contato visual e fala. Ele acreditava que essas habilidades deveriam ser aprendidas por meio da observação, e não da programação por meio de instruções estritas.
“Quando um robô aprende a sorrir ou a falar simplesmente observando e ouvindo os humanos, algo mágico acontece”, disse ele. “Sou um roboticista cansado, mas não posso deixar de sorrir para um robô que sorri espontaneamente para mim.”
Hu enfatizou que o rosto humano continua a ser uma das ferramentas de comunicação mais poderosas e os cientistas estão apenas começando a entender como funciona.
“Os robôs com esta capacidade terão obviamente uma melhor capacidade de se conectar com os humanos porque uma grande parte da nossa comunicação envolve linguagem corporal facial, e todo esse canal está inexplorado”, disse Hu.
Os investigadores também reconhecem que a criação de máquinas que possam comunicar emocionalmente com os humanos levanta questões éticas.
“Esta será uma tecnologia poderosa. Temos que fazê-lo lenta e cuidadosamente para que possamos colher os benefícios e ao mesmo tempo minimizar o risco”, disse Lipson.



