Maio 24, 2025
IA do Google ‘lê’ texto e pixels para gerar paisagens sonoras

IA do Google ‘lê’ texto e pixels para gerar paisagens sonoras

Continue apos a publicidade


A DeepMind, empresa de pesquisa e desenvolvimento de perceptibilidade sintético (IA) do Google, desenvolve uma instrumento capaz de gerar “paisagens sonoras” para vídeos. Chamada de V2A (abreviatura, em inglês, de “vídeo-para-áudio”), a instrumento entende comandos de texto e “lê” pixels para sincronizar áudio com vídeo.

Novidade instrumento do Google cria falas, música e efeitos para vídeos

  • A DeepMind, empresa de pesquisa e desenvolvimento de perceptibilidade sintético (IA) do Google, desenvolve uma instrumento chamada V2A (vídeo-para-áudio), capaz de gerar “paisagens sonoras” para vídeos. Esta instrumento entende comandos de texto e analisa pixels para sincronizar áudio com vídeo;
  • O “motor” da V2A é um protótipo de IA treinado com sons, videoclipes e transcrições de diálogos. As “paisagens sonoras” geradas pela instrumento incluem diálogos, música e efeitos sonoros, todos ajustados para corresponder ao tom das imagens dos vídeos;
  • Devido à qualidade ainda não ideal do som e para evitar o uso indevido, porquê a geração de deep fakes focadas em desinformação, a DeepMind informou que a instrumento não será disponibilizada ao público tão cedo.

O “motor”– ou “cérebro”, se preferir – do V2A é um protótipo de IA que foi treinado combinando sons, videoclipes e transcrições de diálogos. A instrumento usa a descrição de trilhas sonoras para gerar “paisagens” e, depois, as sincroniza com as imagens.

Leia mais:

‘Paisagens sonoras’ criadas por IA do Google têm falas, efeitos e música

Cena de vídeo criado por IA do Google que ganhou paisagem sonora criada também por IA do Google
(Imagem: Reprodução/YouTube)

As “paisagens sonoras” criadas pela novidade instrumento do Google contam com diálogos, música e efeitos sonoros. Elas são geradas de forma que correspondam ao tom das imagens dos vídeos.

Continue após a publicidade
Continue após a publicidade

“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explica a DeepMind em transmitido publicado em seu site.

Ainda de consonância com a empresa, a instrumento seria capaz de compreender “pixels brutos” de uma imagem e sincronizar involuntariamente os sons gerados, sem premência de descrições.

Por ainda não ter conseguido uma qualidade subida de som e para evitar o uso indevido, porquê deep fakes focadas em desinformação, a DeepMind disse que não disponibilizará o recurso tão cedo.

Assista inferior algumas demonstrações de “paisagens sonoras” criadas na V2A (as imagens foram criadas no Veo, plataforma do Google que transforma texto em vídeo):

Continue após a publicidade

Continue após a publicidade



Fonte

Continue após a publicidade

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *