A Sora é a primeira instrumento da OpenAI para geração de vídeo a partir de texto, depois da empresa já ter mudado as regras nos chatbots de Perceptibilidade Sintético com o ChatGPT e na geração de imagens com o Dall-E. O vídeo é a próxima fronteira e a OpenAI mostra o que a Sora pode fazer, ainda em modo experimental.
Cenários complexos, imagens e personagens realistas, contextos de paisagens convincentes aparecem em vários vídeos partilhados ao lado das animações que já nos habituamos a ver outras ferramentas. Mas cá é que também está uma diferença.
“Estamos a ensinar a Perceptibilidade Sintético a simular o mundo físico em movimento, com o objetivo de treinar os modelos que possam ajudar as pessoas a resolver problemas que exijam interação com o mundo real”, explica a OpenAI no post onde anuncia a novidade instrumento.
O padrão entende que os usuários pedem através de um prompt, que não precisa ser muito detalhado, mas também porquê os objetos e personagens se integram no mundo real. Pode ainda fabricar várias perspectivas diferentes ou contínuas e harmonizar o estilo.
Veja os vídeos que foram compartilhados e as dicas que deram origem às imagens
A Sora vem concorrer com o Imagen do Google e o Make a Video da Meta, que também ainda estão em temporada de testese a OpenAI admite que antes de perfurar a possibilidade de utilização da instrumento quer fazer mais estudo para prometer a segurança dos resultados e também trabalhar com designers, realizadosres e criadores para ter o seu contributo sobre porquê pode desenvolver o padrão e torná-lo mais útil .
A OpenAI admite que ainda existem fragilidades nos resultados, e que em alguns casos há pormenores que falham, ou mesmo a falta de percepção de evolução da cena em justificação e efeito. Um dos exemplos mencionados é que uma pessoa pode morder um biscoito, mas depois oriente pode não apresentar o resultado da dentada.
Pode ainda confundir alguns detalhes de um prompt nas restrições espaciais, misturando a esquerda e a direita, ou de entender alguns acontecimentos numa traço de tempo sequencial.
Uma vez que funciona o Sora na geração de vídeo?
A OpenAI não se escusou a compartilhar o que está na base dos vídeos criados por Sora e porquê funciona oriente padrão. À semelhança do GPT, utiliza uma arquitetura de transformação, com uma capacidade de escalar a resposta.
Na base da Sora é um padrão de divulgação, que gera um vídeo a partir daquilo que se parece com soído estático e gradualmente o vai mudandoremovendo o soído ao longo de várias etapas.
A instrumento tem por base os desenvolvimentos para os modelos DALL·E e GPT e utiliza uma técnica de instrumento de imagens que implica a geração de legendas descritivas para dados de treino visual.
Você pode fabricar vídeos inteiros de uma vez, e os exemplos têm muro de um minuto. Mas também pode ampliar os vídeos que foram criados e enfrentar os mais longos. A OpenAI explica que ao fornecer ao padrão a previsão de muitos quadros ao mesmo tempo, resolve o duelo de prometer que um objeto permaneça igual, mesmo quando sai temporariamente de vista.
Pode também partir de uma imagem estática e fabricar um vídeo, animando o teor da retrato com mais precisão e atenção aos detalhes.
Ainda hoje a OpenAI promete publicar um cláusula mais técnico sobre o funcionamento do padrãomas diz já que “Sora serve de base para modelos que possam compreender e simular o mundo real, uma capacidade que devemos que será um marco importante para obter a AGI [Inteligência Artificial Geral]”.
Estas são imagens dos vídeos partilhados pela OpenAI
Em relação à segurança, a OpenAI garante o traje de estar a preparar alguns passos importantes antes de integrar a Sora nos produtos disponíveis ao público, avaliando a possibilidade de desinformação, teor de ódio e preconceitos ou invejamento de imagens.
Entre as formas de detecção de teor manipulado em vídeos gerados por Sora, a empresa quer inserir metadados da C2PA nos vídeosseguindo uma regra que tem vindo a ser defendida também para evitar deepfakes que se estão a tornar mais frequentes, porquê se foram obtidos recentemente no caso que envolve imagens pornográficas com a identidade de Taylor Swift.
Mesmo assim admitindo que, apesar dos testes e investigação, “não conseguimos prever todas as formas benéficas porquê as pessoas utilizarão a nossa tecnologia, nem todas as formas porquê as pessoas irão desmandar dela. É por isso que pensamos que aprender com o uso no mundo real é um componente crítico para fabricar e lançar sistemas de IA cada vez mais seguros ao longo do tempo”, refere a empresa.
Fonte
Compartilhe: