Accueil IA open source : Alibaba dévoile un modèle pour la création vidéo

IA open source : Alibaba dévoile un modèle pour la création vidéo

Alibaba a dévoilé Wan2.1-VACE (Video All-in-one Creation and Editing), son nouveau modèle open source dédié à la création et à l’édition de vidéos.

VACE est le premier modèle open source de l’industrie à offrir une solution unifiée pour une large gamme de tâches de génération et d’édition de vidéos. Il fait partie de la série de modèles de génération vidéo Wan2.1 d’Alibaba. Cet outil réunit plusieurs fonctionnalités de traitement vidéo au sein d’un seul et même modèle, simplifiant ainsi le processus de création et améliorant l’efficacité et la productivité.

Un modèle “tout-en-un” pour l’édition et la création vidéo

Wan2.1-VACE prend en charge la génération vidéo à partir d’entrées multimodales incluant du texte, des images et de la vidéo, tout en proposant aux créateurs une palette complète d’outils d’édition. Ses fonctionnalités incluent l’utilisation d’images ou de frames comme références, la retouche vidéo (repainting), la modification de zones spécifiques, ainsi que l’extension spatio-temporelle, permettant une combinaison flexible des tâches pour stimuler la créativité.

Grâce à cet outil avancé, les utilisateurs peuvent générer des vidéos à partir d’échantillons d’images, y intégrer des sujets en interaction ou animer des images fixes avec des effets de mouvement naturels. Ils bénéficient également de fonctionnalités de retouche comme le transfert de pose, le contrôle des mouvements et de la profondeur, la recolorisation, ainsi que des modifications de zones précises sans affecter l’ensemble de la vidéo.

Le modèle d’Alibaba permet également d’étendre les limites d’une vidéo en générant intelligemment le contenu manquant, ou encore de transformer une image verticale en vidéo horizontale enrichie. Les créateurs peuvent animer des personnages référencés, remplacer des objets ou contrôler la trajectoire du mouvement avec précision, dans un seul et même environnement intégré.

Une interface unique et une technologie open source

Wan2.1-VACE s’appuie sur plusieurs innovations technologiques pour répondre aux besoins variés des tâches d’édition vidéo. Son interface unifiée, appelée Video Condition Unit (VCU), permet le traitement commun des entrées multimodales (texte, image, vidéo, masques). Il intègre également une structure Context Adapter, qui insère différents concepts de tâche grâce à des représentations formelles des dimensions temporelles et spatiales. Ce design permet une gestion flexible d’un large éventail de tâches de synthèse vidéo.

Alibaba propose deux versions open source du modèle Wan2.1-VACE : une version avec 14 milliards de paramètres et une version allégée avec 1,3 milliard de paramètres. Les modèles sont disponibles gratuitement sur Hugging Face, GitHub, et la plateforme open source d’Alibaba Cloud, ModelScope.

En février, Alibaba avait ouvert quatre modèles Wan2.1 au public, suivis en avril d’un modèle de génération vidéo prenant en charge les frames de début et de fin. Ces modèles ont enregistré plus de 3,3 millions de téléchargements sur Hugging Face et ModelScope à ce jour.