Setembro 28, 2024
A novidade IA da DeepMind gera trilhas sonoras e diálogos para vídeos

A novidade IA da DeepMind gera trilhas sonoras e diálogos para vídeos


DeepMind, laboratório de pesquisa de IA do Google, afirma que está desenvolvendo tecnologia de IA para gerar trilhas sonoras para vídeos.

Em uma postagem em seu blog solene, a DeepMind afirma que vê a tecnologia V2A (abreviatura de “vídeo para áudio”) porquê uma peça necessário do quebra-cabeça de mídia gerado por IA. Embora muitas organizações, incluindo a DeepMind, tenham desenvolvido modelos de IA de geração de vídeo, esses modelos não podem fabricar efeitos sonoros para sincronizar com os vídeos que geram.

“Os modelos de geração de vídeo estão avançando a um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa”, escreve DeepMind. “Tecnologia V2A [could] tornar-se uma abordagem promissora para dar vida aos filmes gerados.

A tecnologia V2A da DeepMind usa a descrição de uma trilha sonora (por exemplo, “água-viva pulsando sob a chuva, vida marinha, oceano”) emparelhada com um vídeo para fabricar música, efeitos sonoros e até diálogos que correspondam aos personagens e ao tom do vídeo, marcados com marca d’chuva pelos deepfakes da DeepMind -combate à tecnologia SynthID. O padrão de IA que alimenta o V2A, um padrão de disseminação, foi treinado em uma combinação de sons e transcrições de diálogos, muito porquê videoclipes, diz DeepMind.

“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, segundo DeepMind.

Mamãe sabe se qualquer dos dados de treinamento estava protegido por direitos autorais – e se os criadores dos dados foram informados sobre o trabalho da DeepMind. Entramos em contato com a DeepMind para esclarecimentos e atualizaremos esta postagem se recebermos resposta.

As ferramentas de geração de som alimentadas por IA não são novas. Startup Stability AI lançou um na semana passada, e ElevenLabs lançou um em maio. Nem são modelos para fabricar efeitos sonoros de vídeo. Um projeto da Microsoft pode gerar vídeos de fala e esquina a partir de uma imagem estática, e plataformas porquê Pika e GenreX treinaram modelos para gravar um vídeo e prognosticar qual música ou efeitos são apropriados em uma determinada cena.

Mas a DeepMind afirma que sua tecnologia V2A é única, pois pode compreender os pixels brutos de um vídeo e sincronizar involuntariamente os sons gerados com o vídeo, opcionalmente sem descrição.

V2A não é perfeito e a DeepMind reconhece isso. Porquê o padrão subjacente não foi treinado em muitos vídeos com artefatos ou distorções, ele não cria áudio de qualidade particularmente subida para eles. E em universal, o áudio gerado não é super suasório; minha colega Natasha Lomas descreveu-o porquê “uma miscelânea de sons estereotipados”, e não posso expressar que discordo.

Por essas razões, e para evitar o uso indevido, a DeepMind afirma que não lançará a tecnologia ao público tão cedo, ou nunca.

“Para prometer que nossa tecnologia V2A possa ter um impacto positivo na comunidade criativa, estamos reunindo diversas perspectivas e insights dos principais criadores e cineastas e usando esse feedback valioso para informar nossa pesquisa e desenvolvimento contínuos”, escreve DeepMind. “Antes de considerarmos furar o entrada ao público em universal, nossa tecnologia V2A passará por avaliações e testes de segurança rigorosos.”

A DeepMind apresenta sua tecnologia V2A porquê uma utensílio principalmente útil para arquivistas e pessoas que trabalham com imagens históricas. Mas a IA generativa nesse sentido também ameaço derrubar a indústria cinematográfica e televisiva. Serão necessárias proteções trabalhistas muito fortes para prometer que as ferramentas de mídia generativa não eliminem empregos – ou, conforme o caso, profissões inteiras.





Fonte

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *