Setembro 28, 2024
A novidade utensílio de IA do Google DeepMind usa pixels de vídeo e prompts de texto para gerar trilhas sonoras

A novidade utensílio de IA do Google DeepMind usa pixels de vídeo e prompts de texto para gerar trilhas sonoras


O Google DeepMind retirou uma novidade utensílio de IA para gerar trilhas sonoras de vídeo. Além de utilizar um prompt de texto para gerar áudio, a utensílio da DeepMind também leva em consideração o teor do vídeo.

Ao combinar os dois, DeepMind diz que os usuários podem usar a utensílio para gerar cenas com “uma trilha sonora dramática, efeitos sonoros realistas ou diálogos que correspondam aos personagens e ao tom de um vídeo”. Você pode ver alguns dos exemplos postados no site da DeepMind – e eles parecem muito bons.

Para um vídeo de um carruagem dirigindo por uma paisagem urbana de estilo cyberpunk, o Google usou o prompt “carros derrapando, motor de carruagem acelerando, música eletrônica angelical” para gerar áudio. Você pode ver uma vez que os sons de derrapagem combinam com o movimento do carruagem. Outro exemplo cria uma paisagem sonora subaquática usando o prompt “água-viva pulsando sob a chuva, vida marinha, oceano”.

Embora os usuários possam incluir um prompt de texto, DeepMind diz que é opcional. Os usuários também não precisam combinar meticulosamente o áudio gerado com as cenas apropriadas. Segundo DeepMind, a utensílio também pode gerar um número “intérmino” de trilhas sonoras para vídeos, permitindo aos usuários gerar um fluxo infinito de opções de áudio.

Isso poderia ajudá-lo a se sobresair de outras ferramentas de IA, uma vez que o gerador de efeitos sonoros da ElevenLabs, que usa prompts de texto para gerar áudio. Também poderia tornar mais fácil jungir áudio com vídeo gerado por IA de ferramentas uma vez que Veo e Sora da DeepMind (nascente último planeja eventualmente incorporar áudio).

A DeepMind afirma que treinou sua utensílio de IA em vídeo, áudio e anotações contendo “descrições detalhadas de som e transcrições de diálogos falados”. Isso permite que o gerador de vídeo para áudio combine eventos de áudio com cenas visuais.

A utensílio ainda apresenta algumas limitações. Por exemplo, DeepMind está tentando melhorar sua capacidade de sincronizar o movimento dos lábios com o diálogo, uma vez que você pode ver neste vídeo de uma família claymation. A DeepMind também observa que seu sistema de vídeo para áudio depende da qualidade do vídeo, portanto, qualquer coisa granulada ou distorcida “pode levar a uma queda perceptível na qualidade do áudio”.



Fonte

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *