O Google DeepMind revelou uma nova ferramenta de IA capaz de gerar trilhas sonoras, diálogos e efeitos sonoros para vídeos com base no conteúdo visual dos materiais. A tecnologia V2A (video-to-audio) consegue analisar os pixels do vídeo e combinar as informações com prompts de texto em linguagem natural para gerar áudios que acompanham a ação na tela.
- ImageFX | Google lança nova IA para criar imagens por texto
- DeepMind revela IA que resolve problemas complexos de geometria
A nova IA está em fase de testes e ainda passará por avaliações de segurança antes de ser disponibilizada ao público. Segundo a companhia, cineastas e criadores de conteúdo experimentam a ferramentas e fornecem feedback neste período de experimentação. Ainda não há previsão de quando a ferramenta será liberada ao grande público.
Como funciona a V2A
De acordo com o Google Deepmind, o laboratório de inovação e IA da companhia, a tecnologia V2A parte das informações visuais do vídeo para gerar um áudio que combine com os elementos na tela. A ferramenta codifica a entrada de vídeo em uma representação comprimida e utiliza um modelo de difusão para refinar iterativamente o áudio a partir de ruído aleatório.
-
CT no Flipboard
: você já pode assinar gratuitamente as revistas Canaltech no Flipboard do iOS e Android e acompanhar todas as notícias em seu agregador de notícias favorito.
-
“Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a diversas cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explica a equipe responsável pela V2A no blog oficial da companhia.
Apesar da possibilidade de incluir comandos de texto, eles são opcionais, pois a ferramenta é capaz de criar as trilhas apenas com base no material visual. Além de criar faixas sonoras para vídeos contemporâneos, a V2A pode ser aplicada a materiais tradicionais, como filmes silenciosos e arquivos históricos.
No entanto, o laboratório cita alguns desafios. Primeiramente, os resultados da IA dependem qualidade do vídeo de entrada, e vídeos granulados ou distorcidos podem resultar em uma queda perceptível na qualidade do áudio. Além disso, a sincronização labial em vídeos que envolvem diálogos ainda é imprecisa e precisa de mais tempo de treinamento.
Exemplos da nova IA
O Google DeepMind divulgou alguns exemplos de vídeos com áudios gerados com a nova IA em seu blog oficial. Em um vídeo de um carro em uma cidade futurista, a ferramenta gerou sons de derrapagem, motor acelerando e trilha de música eletrônica que se ajustam aos movimentos do carro.
Em outro exemplo, a IA criou um ambiente sonoro de terror a partir do prompt “cinematográfico, suspense, filme de terror, música, tensão, ambiente, pegadas no concreto”.
A companhia informou que todos os conteúdos gerados pela IA V2A terão a marca d'água SynthID do Google para indicar sua origem artificial , com o objetivo de ajudar a prevenir o uso indevido da tecnologia.
Leia a matéria no Canaltech .
Trending no Canaltech:
- Novo filme do Super Mario ganha data de estreia
- Por que o jogo da Banana virou um fenômeno no Steam?
- Instagram fora do ar? Usuários relatam instabilidade nesta terça (18)
- Câmara dos EUA aprova banimento de drones da DJI
- Clone do Instagram da dona do TikTok aparece na Play Store
- Mario & Luigi: Brothership ressuscita RPG da Nintendo depois de quase uma década