Início ESPECIAIS A nova IA de fala da OpenAI pode ouvir, pensar e falar...

A nova IA de fala da OpenAI pode ouvir, pensar e falar em mais de 70 idiomas.

78
0

OpenAI é Três novos modelos de áudio lançados Ele está incluído na API Realtime e é uma grande ajuda para qualquer pessoa que crie aplicativos baseados em voz. Os três modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

Juntos, eles avançam a IA de voz além de simples respostas de ida e volta para serem capazes de compreender os usuários, agir e acompanhar conversas reais.

Se você precisar da demonstração, vimos a próxima evolução na forma como os modelos de IA de voz funcionam.

Então, o que esses modelos podem realmente fazer?

GPT-Realtime-2 é a manchete. Fornece inferência de nível GPT-5 para interações de voz em tempo real. Isso significa que solicitações mais difíceis podem ser processadas sem interromper a conversa.

Você pode acessar várias ferramentas ao mesmo tempo e até descrever o que está fazendo com frases como “verificando minha agenda” ou “deixe-me dar uma olhada nisso”. Ele também possui uma janela de contexto maior de 128 mil tokens, o que significa sessões mais longas e consistentes. Os desenvolvedores também podem ajustar os esforços de inferência com base na complexidade da solicitação.

GPT-Realtime-Translate é provavelmente o meu favorito. Esta é a coisa mais próxima de usar o Tradutor Universal de Star Trek na vida real. Suporta tradução de fala em tempo real para mais de 70 idiomas de entrada e 13 idiomas de saída.

A melhor coisa sobre a demonstração é que mesmo que uma nova pessoa entre e fale um idioma diferente, o GPT-Realtime-Translate não terá problemas em traduzir dois falantes para o inglês em tempo real.

Por último, existe o GPT-Realtime-Whisper. A maioria dos modelos de fala para texto espera que o locutor termine antes de fornecer uma tradução completa. Este é um modelo de transcrição de streaming que converte a fala em texto enquanto o locutor fala. Isso é útil para legendas ao vivo, atas de reuniões e qualquer fluxo de trabalho baseado em voz que não pode esperar pela gravação.

Alguém pode usar este novo modelo de IA de voz?

Agora a OpenAI lançou esses modelos para desenvolvedores. Mas os aplicativos que eles criam impactarão a todos. Por exemplo, os desenvolvedores podem criar um aplicativo tradutor em tempo real que permite aos usuários conversar com pessoas em diferentes idiomas.

Muitas empresas já estão testando esses novos modelos. A Zillow está construindo um assistente de voz que pode procurar casas e agendar passeios com uma única solicitação de voz. Priceline permite verificar, cancelar e fazer novas reservas de voos e hotéis. O Vimeo o utiliza para transcrição em tempo real e muito mais.

O preço começa em US$ 0,017 por minuto para Whisper, US$ 0,034 por minuto para Translate e US$ 32 por milhão de tokens de entrada de áudio para GPT-Realtime-2.

Source link