Eu não tinha certeza se meus pais perceberiam que a voz do outro lado da linha não era minha — ou que era minha, mas não minha. EU. A voz disse olá, perguntou como estava meu pai e perguntou novamente quando ele não respondeu com rapidez suficiente. “O que é isso, Gaby?” Ele imediatamente percebeu que algo estava errado. Expliquei que tentei enganá-lo e obviamente não consegui. “Não”, ele disse. Parece um robô.
Não foi um experimento perfeito. Meus pais estavam no exterior, então meu relacionamento piorou. Eles estão almoçando com amigos e o som não consegue superar o crosstalk ou o atraso de áudio – ele está tentando preencher o silêncio. E o mais importante, a voz dele parecia humana, mas não parecia a minha.
O som foi produzido pela empresa de detecção de deepfake Reality Defender. O problema da mídia manipulada não é novidade, mas o surgimento de ferramentas de IA voltadas para o consumidor tornou mais fácil a criação de áudio, vídeo e imagens falsos, e diversas empresas surgiram nos últimos anos para combatê-lo. Reality Defender, Pindrop e GetReal fazem parte de uma indústria caseira de rápido crescimento de detecção de deepfake estimado em US$ 5,5 bilhões a partir de 2023. A startup usa aprendizado de máquina para identificar mídias manipuladas. Para combater os deepfakes, você precisa ser capaz de criá-los.
O termo “deepfake” refere-se a um tipo particular de mídia manipulada produzida por aprendizagem “deep”, mas além de como ela é criada, não há nada que una todos os deepfakes em comum. Eles têm sido usados para fraude, assédio e memes. Ferramentas como a Grok AI levaram à proliferação de representação sexual não consensual, incluindo material de abuso sexual infantil. Os fraudadores têm clonar a voz das pessoasligaram para seus parentes e ouviram uma voz dizendo que eles estavam detidos para resgate. Durante as eleições de 2024, um estrategista político e um mágico se uniram para criar uma imagem falsa do ex-presidente Joe Biden, que usaram para impedir que os democratas de New Hampshire votassem nas primárias do estado. O presidente do Comitê de Relações Exteriores do Senado recebeu uma ligação do Zoom de alguém que usou IA para se passar por um oficial ucraniano. No nível corporativo, fraude falsa é agora uma “indústria”, de acordo com um estudo.
A indústria de detecção de deepfakes existe para resolver um desses problemas: o problema da fraude corporativa.
O Reality Defender treina efetivamente a IA para combatê-la. A empresa usa “modelos baseados em inferência” para detectar deepfakes, disse-me o CTO Alex Lisle. “Nosso modelo básico usa algo chamado paradigma aluno/professor. Pegamos um monte de objetos reais e dizemos: ‘Isso é real’, depois um monte de objetos falsos e dizemos ‘Isso é falso’.”
Para o meu falso eu, dedicamos um tempo para aperfeiçoar o som: ajustando a consistência, a estabilidade e o tom para soar mais como o meu verdadeiro eu. Não podemos fazer muito. Não há muitos vídeos meus disponíveis publicamente falando espanhol – a língua que uso para me comunicar com meus pais – exceto uma entrevista em podcast em 2021, que foi praticamente inutilizável porque havia música de fundo. Mas com nove segundos de áudio e dados extraídos de anos de postagens, conseguimos montar um agente de IA bastante convincente, capaz de conversar com meus pais, mesmo que não fosse privado. O modelo inglês que usamos no meu irmão era melhor, porque tínhamos mais dados de treino, mas nem isso foi convincente o suficiente.
Mas a família é o teste mais difícil.
“Eles sabem como você fala”, disse-me Scott Steinhardt, chefe de comunicações da Reality Defender. Steinhardt criou um deepfake com meu consentimento e o ajustou até que soasse mais ou menos como eu. Isto pode não enganar a minha família, mas pode ser bom o suficiente para, digamos, colegas ou uma entidade corporativa como um banco.
Passamos os últimos 40 mil anos confiando em nossos ouvidos e visão, mas agora não podemos
Para serem eficazes, estas ferramentas devem funcionar rapidamente. A IA generativa é um pouco lenta. O modelo que costumávamos chamar de meus pais sacrificou a qualidade pela velocidade. Para que o som responda rapidamente, temos que aceitar uma qualidade inferior. A conversão de texto em fala é muito melhor, mas leva mais tempo para ser criada. Quando ouvimos o monólogo de Lucky de Esperando por Godotsoa quase exatamente como eu.
“Como ser humano, é um grande desafio não ser vítima de falsificação”, disse-me Nicholas Holland, diretor de produtos da Pindrop. “Acho que o desafio é ‘Como posso proteger a minha identidade pessoal?’ é algo que o mundo ainda não conhece. Pensei: ‘Como é que a minha instituição sabe que sou eu?’ é aqui que diferentes instituições aplicam diferentes camadas de segurança.”
Esta também é uma questão de recursos. Não tenho fundos para contratar uma empresa de detecção de deepfake para rastrear minhas ligações, mas meu banco tem – e meu banco tem mais a perder, em termos absolutos e não relativos. Uma pesquisa em 2024 descobriram que as empresas perderam US$ 450.000 por incidente deepfake e mais de uma empresa perdeu até US$ 1 milhão em uma única transação fraudulenta.
Alguns desses casos envolvem fraudadores se passando por executivos, ligando para seus subordinados e fazendo-os transferir grandes somas de dinheiro para suas contas. Antes de ligar para Holland, recebi uma notificação pop-up no Zoom:
Esta reunião está sendo analisada. A Pindrop Security e seus provedores terceirizados gravam áudio e vídeo de suas reuniões para determinar se você é uma pessoa real e/ou a pessoa certa. Ao clicar em ‘Aceitar’ abaixo, você concorda com a coleta, uso e armazenamento de reuniões e áudio, varreduras de sua voz e rosto (que podem ser consideradas informações biométricas) e seu endereço IP (para determinar melhor seu estado, província ou país) pelo Pindrop para os fins acima.
Meu rosto, voz e endereço IP, garantiram-me, seriam armazenados por no máximo 90 dias.
Holland me disse que as empresas estão agora inundadas com falsos candidatos a empregos – ironicamente, até mesmo na Pindrop. “Olhamos para a variedade. Observamos onde as pessoas estão realmente fazendo seu trabalho, talvez elas trabalhem no departamento de TI”, disse Holland. “Temos um cliente que contrata alguém, mas essa pessoa faz uma indicação. Eles contratam outras duas pessoas e acontece que a mesma pessoa foi contratada três vezes usando três vozes diferentes, três rostos diferentes, três identidades diferentes no Slack.”
Normalmente, essas personas de vídeo não são inteiramente geradas por IA; são pessoas que usam tecnologia deepfake para alterar suas próprias características, quase como uma máscara digital. Costumava haver um truque para detectar isso: pedir à pessoa que colocasse três dedos na frente do rosto.
“Isso não funciona de jeito nenhum. Os modelos de IA são tão bons que podem realmente criar mãos, você pode colocar as mãos na frente do rosto”, disse Holland. “Agora é basicamente invisível aos seus olhos.”
Lisle, do Reality Defender, me disse que, à medida que a tecnologia avança, as tentativas de ataque estão diminuindo. Onde antes os fraudadores se passavam por executivos, agora eles têm como alvo funcionários de todos os níveis da empresa. Ele me contou sobre um ataque recente a uma empresa pública que ele se recusou a nomear, no qual o fraudador foi ao LinkedIn, extraiu os nomes de todos os funcionários atuais e depois excluiu o TikTok e o Facebook para criar um “reservatório de informações” e obter impressões de voz para cada uma dessas pessoas. Suas informações e impressões de voz são inseridas no LLM, que cria janelas e mapas de contexto e, em seguida, “se espalha por toda a empresa”, ligando para funcionários de todos os níveis.
“Na segurança cibernética, falamos sobre coisas chamadas ‘limites de confiança’”, disse Lisle. “O problema com os deepfakes é que há sempre um limite de confiança implícito, ou seja, ver e ouvir para crer. Nos últimos 40.000 anos confiamos nos nossos ouvidos e na nossa visão, mas agora não podemos.
Por enquanto, este software destina-se apenas a grandes empresas – elas têm necessidades, grandes riscos e muito dinheiro para pagar por ele. Mas as pessoas comuns não têm software de detecção de deepfake e não o terão tão cedo. Como explica Holland, o maior desafio na adoção em massa é a consciencialização, porque “muitos consumidores não estão conscientes da ameaça, por isso não sabem como encontrar soluções – o marco zero está nas empresas que servem os consumidores”. A Pindrop ainda não possui um produto de consumo, mas não descarta a possibilidade de desenvolvê-lo no futuro. O desafio, disse Holland, é “tornar este sistema rápido, preciso e confiável para que muitas pessoas possam confiar nele em suas vidas diárias”.
O Reality Defender tem uma perspectiva diferente. Steinhardt disse que os produtos de consumo criariam “um campo de atuação desigual e desigual para a sociedade”.
“Pense nele como um antivírus: onde antes era algo com que se preocupar (ou, pior, não se preocupar), agora navegadores, provedores de e-mail, provedores de internet e similares verificam arquivos antes de atacar nossos computadores em busca de malware”, diz Steinhardt. “Esta é a nossa abordagem para detecção de deepfakes.”
Meu deepfake não conseguiu enganar minha família, mas ainda não o testei. Durante anos, as agências de aplicação da lei em todo o país alertaram sobre falsos esquemas de sequestro: os pais recebiam uma ligação de uma voz muito convincente pedindo ajuda, e então o “sequestrador” exigia um resgate. Mesmo que as vozes não sejam completamente convincentes, os gritos e gritos são. Eu não poderia me dar ao luxo de fazer isso com meus pais, mesmo que fosse falso. Considerei brevemente outros golpes: eu poderia entrar em contato com meu banco, ou talvez com minha seguradora de saúde, mas a ideia de me bloquear em minha própria conta – ou cometer uma fraude real e legítima – me deixou ressentido com o experimento. Em vez disso, liguei para minha irmã. “Oh, NÃO”, disse ele assim que a voz o cumprimentou. Ele também não se enganou.



