Google apresenta VideoPoet, um revolucionário modelo de linguagem para a geração de vídeos
O Google anunciou o VideoPoet, um inovador modelo de linguagem grande (LLM, na sigla em inglês) projetado especificamente para a geração de vídeos. Este desenvolvimento é resultado do esforço da equipe do Google Research, que trabalhou intensamente na criação de um LLM voltado para essa tarefa.
Diferentemente dos modelos tradicionais baseados em difusão estável, a equipe optou por um LLM fundamentado na arquitetura do transformador. Este modelo foi treinado com uma enorme quantidade de dados, incluindo 270 milhões de vídeos e mais de 1 trilhão de pares de texto e imagem. O resultado é um modelo capaz de gerar vídeos com uma qualidade e consistência surpreendentes.
VideoPoet: superando os limites na geração de vídeo
Os resultados obtidos pelo VideoPoet superam os alcançados por outros modelos de geração de vídeo. Sua abordagem permite a criação de clipes mais longos e com maior qualidade. Além disso, o VideoPoet pode gerar movimentos maiores e mais consistentes em vídeos mais longos, oferecendo uma gama mais ampla de capacidades. Entre estas estão a simulação de diferentes movimentos de câmera, estilos visuais e estéticos, e até mesmo a geração de novo áudio para coincidir com um clipe de vídeo dado.
Em uma avaliação humana realizada pela equipe, os espectadores entrevistados preferiram os clipes gerados pelo VideoPoet aos produzidos por outros modelos. Isso evidencia a superioridade do novo modelo em termos de qualidade e realismo.
VideoPoet: projetado para o futuro do conteúdo multimídia
O VideoPoet é projetado para produzir vídeos em orientação vertical por padrão, uma decisão que reflete a tendência popularizada por plataformas como Snap e TikTok, onde os vídeos verticais são a norma.
Olhando para o futuro, o Google Research planeja expandir as capacidades do VideoPoet para suportar tarefas de geração “de qualquer para qualquer”, como texto-para-áudio e áudio-para-vídeo. Isso poderia abrir novas possibilidades na geração de conteúdo multimídia.
Apesar de seu impressionante desempenho, o VideoPoet não está atualmente disponível para uso público. O Google ainda não forneceu informações sobre quando ele poderia estar disponível. No entanto, dada a promessa que este modelo mostra, é provável que os desenvolvedores e criadores de conteúdo estejam ansiosos para ter acesso a ele.
Clara é criadora e editora de conteúdo, com sólida formação em ciências e especialização em inteligência artificial. Sua paixão por este campo em constante evolução levou-a a adquirir os conhecimentos necessários para entender e comunicar os avanços mais recentes nesta área. Com sua experiência e habilidades em redação e edição de conteúdo, Clara é capaz de transmitir de maneira clara e eficaz conceitos complexos relacionados à inteligência artificial, tornando-os acessíveis a todos os tipos de públicos.