Um sistema de inteligência artificial desenvolvido pela Microsoft em parceria com pesquisadores da Universidade de Zhejiang, na China, conseguiu gerar vozes cantantes em diferentes idiomas. Apelidado de DeepSinger, ele abre caminho para futuros deepfakes musicais.
Desenvolver um sistema como o DeepSinger não foi fácil. Os pesquisadores explicam que vozes cantante possuem padrões e ritmos mais complicados do que a voz falada, dificultando a tarefa de sintetizar e classificar diferentes timbres de voz.
Você viu?
Para chegar ao sistema, os cientistas buscaram canções cantadas por artistas populares em três idiomas (inglês, mandarim e cantonês), e usaram uma ferramenta de segmentação de áudio chamada Spleeter para separar as palavras. A partir daí, o DeepSinger calculou a duração de cada fonema no vocal das músicas, e criou versões de testes com vozes cantantes que foram aperfeiçoadas a cada nova tentativa.
Os pesquisadores afirmam que o DeepSinger é capaz de sintetizar vozes cantantes de alta qualidade em relação a afinação e naturalidade. Alguns dos resultados obtidos pelo sistema podem ser ouvidos aqui , em um site preparado pelos pesquisadores.
Possíveis utilizações
O DeepSinger tem tanto potencial positivo quanto negativo. O sistema pode ser usado maliciosamente para criar músicas falsas com artistas dizendo frases que jamais disseram.
Por outro lado, o DeepSinger poderia diminuir a carga de trabalho imposta a muitos artistas, que passam longas sessões gravando e regravando as mesmas canções devido a erros ou mudanças de última hora. Sintetizadores de voz com inteligência artificial poderiam substituí-los nesses pequenos ajustes, permitindo mais tempo livre para compor novas músicas ou simplesmente descansar.
Mas não parece que isso vai acontecer logo. Ainda há muito trabalho a curto prazo: no artigo publicado no Arxyv.org, os pesquisadores dizem que planejam usar outras tecnologias de inteligência artificial em conjunto com o DeepSinger para melhorar a qualidade da voz.