Google présente VideoPoet, un modèle de langage révolutionnaire pour la génération de vidéos
Google a dévoilé VideoPoet, un modèle de langage innovant de grande taille (LLM, pour ses initiales en anglais) spécifiquement conçu pour la génération de vidéos. Ce développement est le fruit des efforts de l’équipe de Google Research, qui a travaillé intensivement à la création d’un LLM orienté vers cette tâche.
Contrairement aux modèles traditionnels basés sur une diffusion stable, l’équipe a opté pour un LLM basé sur l’architecture du transformateur. Ce modèle a été formé avec une énorme quantité de données, incluant 270 millions de vidéos et plus d’un billion de paires de texte et d’image. Le résultat est un modèle capable de générer des vidéos avec une qualité et une cohérence stupéfiantes.
VideoPoet : repousser les limites dans la génération de vidéo
Les résultats obtenus par VideoPoet surpassent ceux obtenus par d’autres modèles de génération vidéo. Son approche permet la création de clips plus longs et de meilleure qualité. De plus, VideoPoet peut générer des mouvements plus grands et plus cohérents dans des vidéos plus longues, offrant une gamme plus large de capacités. Parmi celles-ci figurent la simulation de différents mouvements de caméra, styles visuels et esthétiques, et même la génération d’un nouvel audio pour correspondre à un clip vidéo donné.
Dans une évaluation humaine menée par l’équipe, les spectateurs interrogés ont préféré les clips générés par VideoPoet à ceux produits par d’autres modèles. Cela démontre la supériorité du nouveau modèle en termes de qualité et de réalisme.
VideoPoet : conçu pour l’avenir du contenu multimédia
VideoPoet est conçu pour produire des vidéos en orientation verticale par défaut, une décision qui répond à la tendance popularisée par des plateformes comme Snap et TikTok, où les vidéos verticales sont la norme.
En regardant vers l’avenir, Google Research prévoit d’étendre les capacités de VideoPoet pour supporter des tâches de génération «de n’importe quoi à n’importe quoi», comme le texte-à-audio et l’audio-à-vidéo. Cela pourrait ouvrir de nouvelles possibilités dans la génération de contenu multimédia.
Malgré ses performances impressionnantes, VideoPoet n’est pas actuellement disponible pour une utilisation publique. Google n’a pas encore fourni d’informations sur quand il pourrait être disponible. Cependant, étant donné la promesse que montre ce modèle, il est probable que les développeurs et les créateurs de contenu soient impatients d’y avoir accès.
Clara est créatrice et éditrice de contenus, avec une solide formation en sciences et une spécialisation en intelligence artificielle. Sa passion pour ce domaine en constante évolution l'a amenée à acquérir les connaissances nécessaires pour comprendre et communiquer les avancées les plus récentes dans ce domaine. Grâce à son expérience et à ses compétences en rédaction et édition de contenus, Clara est capable de transmettre de manière claire et efficace des concepts complexes liés à l'intelligence artificielle et ainsi les rendre accessibles à tous types de publics.
Cette entrée est également disponible dans : Español Português