Google presenta VideoPoet, un revolucionario modelo de lenguaje para la generación de vídeos
Google ha dado a conocer VideoPoet, un innovador modelo de lenguaje grande (LLM, por sus siglas en inglés) diseñado específicamente para la generación de vídeos. Este desarrollo es fruto del esfuerzo del equipo de Google Research, que ha trabajado intensamente en la creación de un LLM orientado a esta tarea.
A diferencia de los modelos tradicionales basados en difusión estable, el equipo optó por un LLM fundamentado en la arquitectura del transformador. Este modelo se ha entrenado con una ingente cantidad de datos, incluyendo 270 millones de vídeos y más de 1 billón de pares de texto e imagen. El resultado es un modelo capaz de generar vídeos con una calidad y consistencia asombrosas.
VideoPoet: superando los límites en la generación de vídeo
Los resultados obtenidos por VideoPoet superan a los logrados por otros modelos de generación de vídeo. Su enfoque permite la creación de clips más largos y con mayor calidad. Además, VideoPoet puede generar movimientos más grandes y consistentes en vídeos más largos, ofreciendo una gama más amplia de capacidades. Entre estas se incluyen la simulación de diferentes movimientos de cámara, estilos visuales y estéticos, e incluso la generación de nuevo audio para coincidir con un clip de vídeo dado.
En una evaluación humana llevada a cabo por el equipo, los espectadores encuestados prefirieron los clips generados por VideoPoet a los producidos por otros modelos. Esto evidencia la superioridad del nuevo modelo en términos de calidad y realismo.
VideoPoet: diseñado para el futuro del contenido multimedia
VideoPoet está diseñado para producir vídeos en orientación vertical por defecto, una decisión que responde a la tendencia popularizada por plataformas como Snap y TikTok, donde los vídeos verticales son la norma.
Mirando hacia el futuro, Google Research planea expandir las capacidades de VideoPoet para soportar tareas de generación «de cualquier a cualquier», como texto-a-audio y audio-a-video. Esto podría abrir nuevas posibilidades en la generación de contenido multimedia.
A pesar de su impresionante rendimiento, VideoPoet no está actualmente disponible para uso público. Google aún no ha proporcionado información sobre cuándo podría estar disponible. Sin embargo, dada la promesa que muestra este modelo, es probable que los desarrolladores y creadores de contenido estén ansiosos por tener acceso a él.
Clara es creadora y editora de contenidos, con una sólida formación en ciencias y una especialización en inteligencia artificial. Su pasión por este campo en constante evolución la ha llevado a adquirir los conocimientos necesarios para comprender y comunicar los avances más recientes en este campo. Con su experiencia y habilidades en la redacción y edición de contenidos, Clara es capaz de transmitir de manera clara y efectiva conceptos complejos relacionados con la inteligencia artificial y de esta manera hacerlos accesibles para todo tipo de audiencias.