Abril 8, 2025
A novidade tecnologia de IA do Google DeepMind irá gerar trilhas sonoras para vídeos

A novidade tecnologia de IA do Google DeepMind irá gerar trilhas sonoras para vídeos

Continue apos a publicidade


O laboratório de lucidez sintético DeepMind do Google está trabalhando em uma novidade tecnologia que pode gerar trilhas sonoras, até mesmo diálogos, para escoltar vídeos. O laboratório compartilhou seu progresso no projeto de tecnologia de vídeo para áudio (V2A), que pode ser combinado com o Google Veo e outras ferramentas de geração de vídeo, uma vez que o Sora da OpenAI. Em sua postagem no blog, a equipe do DeepMind explica que o sistema pode entender pixels brutos e combinar essas informações com prompts de texto para fabricar efeitos sonoros para o que está acontecendo na tela. Vale ressaltar que a utensílio também pode ser usada para fabricar trilhas sonoras para filmagens tradicionais, uma vez que filmes mudos e qualquer outro vídeo sem som.

Os pesquisadores da DeepMind treinaram a tecnologia em vídeos, áudios e anotações geradas por IA que contêm descrições detalhadas de sons e transcrições de diálogos. Eles disseram que, ao fazer isso, a tecnologia aprendeu a associar sons específicos a cenas visuais. Porquê TechCrunch observa que a equipe da DeepMind não é a primeira a lançar uma utensílio de IA que pode gerar efeitos sonoros – a ElevenLabs também lançou uma recentemente – e não será a última. “Nossa pesquisa se destaca das soluções existentes de vídeo para áudio porque pode compreender pixels brutos e juntar um prompt de texto é opcional”, escreve a equipe.

Embora o prompt de texto seja opcional, ele pode ser usado para moldar e refinar o resultado final para que seja o mais preciso e realista provável. Você pode inserir avisos positivos para direcionar a saída para a geração dos sons desejados, por exemplo, ou avisos negativos para desviá-lo dos sons que você não deseja. No exemplo aquém, a equipe utilizou o prompt: “Cinemático, suspense, filme de terror, música, tensão, ambientação, pegadas no concreto.

Continue após a publicidade

Os pesquisadores admitem que ainda estão tentando resolver as limitações existentes da tecnologia V2A, uma vez que a queda na qualidade do áudio de saída que pode ocorrer se houver distorções no vídeo de origem. Eles também ainda estão trabalhando para melhorar as sincronizações labiais para os diálogos gerados. Ou por outra, eles prometem sujeitar a tecnologia a “avaliações e testes de segurança rigorosos” antes de lançá-la ao mundo.

Levante item contém links afiliados; se você clicar nesse link e fizer uma compra, poderemos lucrar uma percentagem.

Continue após a publicidade



Fonte

Continue após a publicidade

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *