Pode levar qualquer tempo até descobrirmos. O pregão do Sora pela OpenAI hoje é uma provocação tecnológica, e a empresa diz que não tem planos atuais de lançá-lo ao público. Em vez disso, a OpenAI começará hoje a compartilhar o padrão com testadores de segurança terceirizados pela primeira vez.
Em privado, a empresa está preocupada com o potencial uso indevido de vídeos falsos, mas fotorrealistas. “Estamos sendo cuidadosos com a implantação cá e garantindo que todas as nossas bases estejam cobertas antes de colocarmos isso nas mãos do público em universal”, diz Aditya Ramesh, investigador da OpenAI, que criou o padrão de texto para imagem da empresa. DALL-E.
Mas a OpenAI está planejando o lançamento de um resultado em qualquer momento no porvir. Além dos testadores de segurança, a empresa também está compartilhando o padrão com um seleto grupo de produtores de vídeo e artistas para obter feedback sobre porquê tornar o Sora o mais útil provável para profissionais criativos. “O outro objetivo é mostrar a todos o que está por vir, dar uma prévia do que esses modelos serão capazes”, diz Ramesh.
Para erigir o Sora, a equipe adaptou a tecnologia por trás do DALL-E 3, a versão mais recente do principal padrão de texto para imagem da OpenAI. Uma vez que a maioria dos modelos de texto para imagem, o DALL-E 3 usa o que é divulgado porquê padrão de espalhamento. Eles são treinados para transformar uma confusão de pixels aleatórios em uma imagem.
Sora adota essa abordagem e a aplica a vídeos em vez de imagens estáticas. Mas os pesquisadores também acrescentaram outra técnica à mistura. Ao contrário do DALL-E ou da maioria dos outros modelos de vídeo generativos, Sora combina seu padrão de espalhamento com um tipo de rede neural chamada transformador.
Os transformadores são ótimos para processar longas sequências de dados, porquê palavras. Isso os tornou o molho próprio dentro de grandes modelos de linguagem, porquê o GPT-4 da OpenAI e o Gemini do Google DeepMind. Mas os vídeos não são feitos de palavras. Em vez disso, os pesquisadores tiveram que encontrar uma maneira de trinchar os vídeos em pedaços que pudessem ser tratados porquê se fossem. A abordagem que eles criaram foi dividir os vídeos no espaço e no tempo. “É porquê se você tivesse uma rima de todos os quadros de vídeo e cortasse pequenos cubos dela”, diz Brooks.
O transformador dentro do Sora pode logo processar esses pedaços de dados de vídeo da mesma maneira que o transformador dentro de um padrão de linguagem grande processa palavras em um conjunto de texto. Os pesquisadores dizem que isso lhes permitiu treinar Sora em muito mais tipos de vídeo do que outros modelos de texto para vídeo, variados em termos de solução, duração, proporção e orientação. “Isso realmente ajuda o padrão”, diz Brooks. “Isso é um pouco sobre o qual não temos conhecimento de nenhum trabalho existente.”
“Do ponto de vista técnico, parece um progresso muito significativo”, afirma Sam Gregory, diretor executivo da Witness, uma organização de direitos humanos especializada no uso e uso indevido de tecnologia de vídeo. “Mas há dois lados da moeda”, diz ele. “As capacidades expressivas oferecem potencial para que muito mais pessoas sejam contadores de histórias usando vídeo. E também existem caminhos potenciais reais para uso indevido.”