O DeepMind, laboratório de inteligência sintético do Google, divulgou, na segunda-feira (17), seus avanços no desenvolvimento de uma novidade tecnologia capaz de gerar diálogo e efeitos sonoros para vídeos. O projeto é tratado uma vez que V2A (“video-to-audio” ou “vídeo para áudio”, em tradução livre) e está em tempo de testes privados.
A tecnologia combina os pixels de vídeos com descrições de texto em linguagem oriundo para gerar paisagens sonoras realistas e sincronizadas com o que está sendo exibido na tela. Segundo o DeepMind, o V2A pode ser integrado a modelos de geração de vídeo que, no universal, não são capazes de gerar áudio para os vídeos criados.