A Microsoft anunciou recentemente o VASA-1, uma novidade instrumento de perceptibilidade sintético capaz de transformar imagens estáticas em vídeos curtos. O padrão em questão utiliza tecnologia deepfake e, além de sincronizar os lábios com um clipe de áudio, é capaz de reproduzir expressões faciais próximas da verdade.
Além de imagens de pessoas reais, a IA é capaz de gerar vídeos de representações artísticas. Em um dos vídeos que mais fizeram sucesso nas redes sociais, a big tech gerou uma animação do quadro Mona Lisa, de Leonardo da Vinci, cantando um rap.
O VASA-1 da Microsoft acaba de ser lançado e é realmente inacreditável.
É 100% IA que pode trovar e falar com base em uma única imagem.
Cá estão 10 exemplos selvagens:
1. Rap Mona Lisa pic.twitter.com/TpzKuZVH0g
– MD Shamim Hossain Osman (@MDShamimHoss420) 28 de abril de 2024
A gigante da tecnologia não planeja disponibilizar a instrumento para o público universal em razão do impacto negativo que seu uso indevido pode ter na sociedade. No entanto, isso não significa que a empresa não planeja incorporar a tecnologia em seus serviços.
Uma das possíveis aplicações do padrão é no Microsoft Teams, plataforma de notícia corporativa, possibilitando que os usuários façam videochamadas com a câmera desligada. Nestes casos, o VASA atuaria animando a imagem de perfil, sincronizando os lábios com o teor do áudio em tempo real.
Cá estão alguns exemplos do potencial do VASA-1:
1/ Vídeo de um minuto pic.twitter.com/PdOP8ES5BP
– Madni Aghadi (@hey_madni) 1º de maio de 2024
É importante primar que o Teams possibilita a utilização de avatares em videoconferências. No ano pretérito a plataforma recebeu um recurso que permite a geração de uma representações digitais de pessoas. A instrumento é últil para aqueles dias em que o usuário não se sente muito a”traente” para surgir em frente às câmeras.
Entretanto, com o novo padrão de IA, a Microsoft poderia levar esta funcionalidade a um a um novo nível, já que seria provável utilizar a imagem real de pessoas nas representações.
Uma das maiores preocupações da Microsoft — e que vem sendo trabalhada internamente — neste momento é em melhorar as representações de humanos do VASA que, embora sejam muito impressionantes, ainda não reproduzem nuances de expressões faciais ou movimentações corporais que correspondam exatamente à verdade.
VASA-1: pega uma imagem e transforma em vídeo. Um pouco terrificante. pic.twitter.com/HAg6ELro10
– Transcendente Ron (@perry_ron) 1º de maio de 2024