OpenAI criou um incrível novo padrão de vídeo generativo chamado Sora que pode pegar uma breve descrição de texto e transformá-la em um clipe de filme detalhado e de subida definição com até um minuto de duração.
Com base em quatro exemplos de vídeos que a OpenAI compartilhou com o MIT Technology Review antes do pregão de hoje, a empresa sediada em São Francisco ultrapassou os limites do que é provável com a geração de texto para vídeo (uma novidade risca de pesquisa que apontamos porquê uma das 10 tecnologias emergentes para 2024.
“Acreditamos que a geração de modelos que possam compreender o vídeo e todas as interações complexas em nosso mundo é um passo importante para os sistemas de IA do horizonte”, disse Tim Brooks, observador da OpenAI.
Mas há uma isenção de responsabilidade. A OpenAI nos deu uma prévia do Sora (que significa firmamento em nipónico) sob condições de estrito sigilo. Em um movimento incomum, a empresa só compartilharia informações sobre Sora se concordássemos em esperar que as notícias sobre o padrão se tornassem públicas antes de buscar informações de especialistas externos. [OpenAI no ha publicado ningún informe técnico ni ha demostrado que el modelo funcione realmente. Y dice que no lanzará Sora en breve].
Os primeiros modelos generativos que poderiam produzir vídeos a partir de trechos de texto apareceram no final de 2022. Mas os primeiros exemplos da Meta, do Google e de uma startup chamada Runway apresentavam bugs e eram de baixa definição. Desde logo, a tecnologia melhorou rapidamente. O padrão gen-2 da Runway, lançado no ano pretérito, pode produzir clipes curtos de qualidade semelhante às animações de grandes estúdios. Mas a maioria desses exemplos ainda dura exclusivamente alguns segundos.
Vídeos de modelo Sora do OpenAI Eles são de subida definição e cheios de detalhes. OpenAI também afirma que pode gerar vídeos de até um minuto de duração. Um vídeo de uma rua de Tóquio mostra que Sora aprendeu porquê os objetos se encaixam em 3D: a câmera amplia a cena para seguir um par passando por uma fileira de lojas.
OpenAI também afirma que Sora lida muito com a oclusão. Um dos problemas dos modelos existentes é que Eles podem não seguir os objetos quando eles desaparecem de vista. Por exemplo, se um caminhão passar por um sinal de trânsito, o sinal poderá não romper novamente depois.
Em um vídeo de uma cena subaquática de papel mercadoSora adicionou o que parecem ser cortes entre diferentes peças de filmagem, e a padrão manteve um estilo consistente entre eles.
Não é perfeito. No vídeo de Tóquio, os carros à esquerda parecem menores do que as pessoas que andam ao lado deles. Eles também aparecem e desaparecem entre os galhos das árvores. “Há muito a ser feito em termos de consistência ao longo do tempo. Por exemplo, se alguém desaparece de vista por muito tempo, não volta. O padrão esquece que deveria estar ali”, detalha Brooks.
Provocação tecnológica
Por mais impressionantes que sejam, não há incerteza de que os vídeos de modelo mostrados cá foram selecionados para mostrar o melhor de Sora. Sem mais informações, é difícil saber até que ponto são representativos do desempenho típico do padrão.
Pode demorar um pouco para descobrirmos. O pregão do Sora pela OpenAI é um provocação tecnológica e a empresa diz que não tem planos de divulgá-lo ao público. Em vez disso, a OpenAI começará a compartilhar o padrão com testadores de segurança terceirizados hoje pela primeira vez.
Especificamente, a empresa está preocupada com o potencial uso indevido de vídeos falsos, mas fotorrealistas. “Estamos sendo cuidadosos com o lançamento e garantindo que cobrimos todas as bases antes de colocar isso nas mãos do público em universal”, explica Aditya Ramesh, observador da OpenAI, que criou o DALL-E de texto para imagem da empresa. padrão. .
Mas a OpenAI planeja lançar o resultado no horizonte. Além dos testadores de segurança, a empresa também está compartilhando o padrão com um grupo seleto de criadores de vídeo e artistas para obter informações sobre porquê tornar o Sora o mais útil provável para profissionais criativos. “O outro objetivo é mostrar a todos o que está por vir e dar uma prévia do que esses modelos serão capazes”, diz Ramesh.
Para fabricar o Sora, a equipe adaptou a tecnologia do DALL-E 3, a versão mais recente do principal padrão de texto para imagem da OpenAI. Uma vez que a maioria dos modelos de texto para imagem, o DALL-E 3 usa o que é espargido porquê padrão de espalhamento. Esses modelos são treinados para transmutar um inextricável de pixels aleatórios em uma imagem.
Sora adota essa abordagem e a aplica a vídeos em vez de imagens estáticas. Mas os pesquisadores também acrescentaram outra técnica à mistura. Ao contrário do DALL-E ou da maioria dos outros modelos de vídeo generativos, Sora combina seu padrão de espalhamento com um tipo de rede neural chamada transformador.
Transformadores são ótimos para processar longas sequências de dados, porquê palavras. Isso os tornou um substância privativo em grandes modelos de linguagem, porquê o GPT-4 da OpenAI e o Gemini do Google DeepMind. Mas os vídeos não são feitos de palavras. Em vez disso, os pesquisadores tiveram que encontrar uma maneira de trinchar os vídeos em pedaços que pudessem ser tratados porquê se fossem. A abordagem que eles criaram foi dividir os vídeos no espaço e no tempo. “É porquê se você tivesse uma rima de todos os quadros de vídeo e cortasse pequenos cubos dela”, diz Brooks.
O transformador dentro do Sora pode logo processar esses pedaços de dados de vídeo da mesma forma que o transformador dentro de um padrão de linguagem grande processa palavras em um conjunto de texto. Os pesquisadores dizem que isso lhes permitiu treine Sora em muitas outras variedades de teor do que outros modelos de texto para vídeo, incluindo diferentes resoluções, durações, proporções e orientação. “Isso realmente ajudou o padrão e não conhecemos nenhum outro trabalho que tenha feito isso”, observa Brooks.
“De uma perspectiva técnica, parece que vocên progresso muito significativo” diz Sam Gregory, diretor executivo da Witness, uma organização de direitos humanos especializada no uso e uso indevido de tecnologia de vídeo. “Mas a moeda tem dois lados. As capacidades expressivas oferecem o potencial para que muito mais pessoas se tornem contadores de histórias usando vídeo. E também há possibilidades reais de uso indevido”, considera.
A OpenAI está muito consciente dos riscos que acompanham um padrão de vídeo generativo. Já estamos vendo uso indevido de imagens em grande graduação deepfake . O vídeo fotorrealista leva isso a outro nível.
Gregory salienta que esta tecnologia poderia ser usada para desinformar sobre zonas de conflito ou protestos. A variedade de estilos também é interessante, diz ele. Se pudessem ser geradas imagens tremidas que parecessem ter sido tiradas com um telefone, elas pareceriam ainda mais autênticas.
A tecnologia ainda não existe, mas o vídeo generativo passou de zero a Sora em exclusivamente 18 meses. “Vamos entrar em um universo onde haverá teor totalmente sintético, teor gerado por humanos e uma mistura de ambos”, diz Gregory.
A equipe OpenAI planeja desenvolver os testes de segurança realizados no ano pretérito para o DALL-E 3. Sora já inclui um filtro que funciona em todas as dicas enviadas ao padrão e que bloqueará solicitações de imagens violentas, sexuais ou de ódio, muito porquê imagens de pessoas conhecidas. Outro filtro analisará os quadros de vídeo gerados e bloqueará material que viole as políticas de segurança da OpenAI.
A OpenAI afirma que também está adaptando um detector de imagens falsas desenvolvido para DALL-E 3 para uso com Sora. E a empresa incorporará tags C2PA padrão da indústria, metadados que indicam porquê uma imagem foi gerada, durante toda a produção do Sora. Mas estas medidas estão longe de ser infalíveis. Detectores de imagens falsas são imprevisíveis. Os metadados são fáceis de remover e a maioria das redes sociais os remove das imagens que seus usuários carregam por padrão.
“Definitivamente precisaremos obter mais feedback e aprender mais sobre os riscos que precisam ser abordados em torno dos vídeos antes de fazer sentido lançar isto”, explica Ramesh.
Brooks concorda: “Uma das razões pelas quais estamos publicando esta pesquisa agora é para que possamos encetar a ter informações e poder trabalhar para saber porquê implementá-la com segurança”, diz ele.