Novo software traduz palavras ditas em outro idioma e repete usando mesmo tom de voz, que é recriado a partir de fragmentos da voz do usuário

A Microsoft publicou um vídeo nesta sexta-feira (9) em que demonstra uma nova versão de seu sistema de tradução simultânea de voz para voz. O Monolingual TTS, mostrado pela primeira vez em março deste ano, foi parte de uma demonstração de Rick Rashid, chefe de pesquisa da Microsoft Research, durante um evento em Tianjin (China) no final de outubro.

Durante a apresentação, o pesquisador da Microsoft falou algumas palavras em inglês e o sistema traduziu simultâneamente para mandarim, com o mesmo tom de voz dele. Confira a demonstração completa no vídeo abaixo (em inglês):

Para funcionar, o sistema precisa inicialmente de uma hora de áudio com a voz do usuário, em seu idioma nativo. Esse áudio é então dividido em “pedaços” minúsculos, de 5 milissegundos de duração. Os pedaços de áudio são então recombinados para formar palavras em novos idiomas. A técnica usada pelo sistema se chama Deep Neural Network (redes neurais profundas, em inglês).

Apesar das limitações do teste, a plateia do evento ficou animada com a demonstração de Rashid. "Quando eu falei em inglês, o sistema automaticamente combinou as tecnologias para oferecer uma experiência de tradução de voz para voz. A minha voz falando chinês", disse o pesquisador, no blog. Ainda não há previsão de quando a nova tecnologia poderá integrar um produto comercial.

De acordo com Rashid, a nova versão do sistema, mais avançada, agora "entende" errado menos palavras do que antes. "Nós reduzimos a taxa de erros em 30% comparado com os métodos anteriores. Isso significa que, em vez de ter uma palavra incorreta a cada quatro ou cinco reconhecidas, agora a taxa de erro fica em uma palavra a cada sete ou oito ditas", diz Rashid, no blog oficial da Microsoft.

    Faça seus comentários sobre esta matéria mais abaixo.