Início ESPECIAIS DeepL lança tradução de fala para fala em tempo real em mais...

DeepL lança tradução de fala para fala em tempo real em mais de 40 idiomas

15
0

A empresa de tradução com sede em Colônia, mais conhecida por suas ferramentas de texto, revelou um conjunto completo de voz que inclui APIs para reuniões, conversas, configurações de grupo e integrações empresariais. Uma demonstração ao vivo em Seul mostrou um atraso de uma ou duas frases, e o CPO do DeepL reconheceu que as diferenças na ordem das palavras entre os idiomas continuam a ser um desafio fundamental.

A DeepL, uma empresa de IA linguística com sede em Colónia e reputação de tradução de textos de alta qualidade, lançou o DeepL Voice-to-Voice, um conjunto de tradução de voz em tempo real concebido para comunicações empresariais em tempo real.

O produto aborda quatro casos de uso, reuniões virtuais, conversas móveis e na web, configurações de grupo para funcionários da linha de frente e aplicativos empresariais via API, e oferece suporte a mais de 40 idiomas, incluindo os 24 idiomas oficiais da UE e idiomas adicionais, como vietnamita, tailandês, árabe, norueguês, hebraico, bengali e tagalo.

Os quatro componentes da linha de produtos estão em diferentes estágios de disponibilidade. Voice for Conversations, que permite tradução em tempo real no celular e na web sem instalar um aplicativo, já está oficialmente disponível.

Espaço de coworking da cidade de TNW – onde o melhor trabalho acontece

Um espaço de trabalho projetado para crescimento, colaboração e oportunidades infinitas de networking no centro da tecnologia.

O Voice for Meetings, que se integra ao Microsoft Teams e ao Zoom para permitir que os participantes falem em seu idioma nativo enquanto outros ouvem interpretação simultânea, lançará um programa de acesso antecipado em junho.

Uma API Voice-to-Voice que permitirá às empresas incorporar o mecanismo de tradução do DeepL em aplicações voltadas para o cliente, como call centers, está atualmente em seus estágios iniciais. A terminologia falada, um recurso personalizado que permite ao sistema aprender vocabulário específico do setor, nomes de empresas e nomes pessoais, está agendada para disponibilidade geral em 7 de maio.

Jarek Kutylowski, fundador e CEO da DeepL, explicou que este lançamento atingirá: “Outra fronteira na tradução.”

“O DeepL Voice-to-Voice permite que qualquer pessoa fale naturalmente em seu próprio idioma, sem o custo ou o atrito de um intérprete.” ele disse

O DeepL posicionou este produto como uma ferramenta empresarial e não como uma ferramenta de consumo. A empresa afirma que sua tecnologia de voz não usa dados de clientes para treinar modelos e não armazena permanentemente dados de transcrição ou tradução após o término de uma chamada. Esta é uma estrutura de segurança que a diferencia dos produtos de voz de IA para consumidores e é voltada para setores regulamentados.

O sistema atual opera através de um pipeline de três estágios. A fala é convertida em texto, o texto é traduzido usando o mecanismo de tradução estabelecido do DeepL e, em seguida, a saída é convertida novamente em fala.

A reivindicação competitiva do DeepL reside na qualidade das suas etapas intermediárias. A empresa afirma que seu modelo de tradução de texto supera as alternativas e esses benefícios se estendem à produção de fala.

Em uma avaliação cega encomendada pelo DeepL e conduzida de forma independente pela empresa de pesquisa do setor linguístico Slator, 96% dos linguistas profissionais preferiram o DeepL Voice às soluções de tradução nativas no Google Meet, Microsoft Teams e Zoom, citando fluência superior e precisão contextual. DeepL Voice recebeu uma pontuação de 96,4 em 100 no Zoom e 96,3 em 100 no Microsoft Teams.

No entanto, uma demonstração ao vivo do Diretor de Produto Gonzalo Gaiolas no evento DeepL Connect SEOUL realizado em 15 de abril revelou as limitações atuais do sistema. Há um atraso perceptível de uma ou duas frases entre o final do orador e a entrega da tradução.

O próprio Gaiolas reconheceu o atraso. “Cada idioma tem ordens de palavras e estruturas de frases diferentes, causando atrasos na interpretação em tempo real.” De acordo com o Seoul Economic Daily, ele disse isso.

A empresa planeja reduzir a latência por meio do desenvolvimento contínuo de modelos. Em termos de qualidade de voz, os sistemas atuais utilizam vozes sintéticas fixas para traduzir. DeepL afirma que planeja lançar um recurso de preservação de fala até o final de 2026 que preservará as características originais da fala do locutor na saída traduzida.

O DeepL está entrando no mercado com vários concorrentes bem financiados. A Sanas, que usa IA para modificar o sotaque dos falantes em tempo real para aplicações de call center, levantou US$ 65 milhões em uma rodada liderada pela Quadrille Capital.

A Camb.AI, com sede em Dubai, concentra-se na síntese e tradução de fala para dublagem de mídia. Palabra, apoiada pelo cofundador do Reddit, Alexis Ohanian, Seven Seven Six, está desenvolvendo um mecanismo de tradução de fala em tempo real que se concentra em preservar as características vocais do locutor.

Google, Microsoft e Zoom oferecem seus próprios recursos de tradução de reuniões, e DeepL é uma plataforma que desafia e integra simultaneamente. A aposta estratégica do DeepL é que a qualidade da tradução, o seu diferenciador mais antigo, pode superar as vantagens estruturais que detém nas implementações de plataformas existentes.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui