Alibaba Cloud, la division data intelligence et technologies numériques du groupe Alibaba, vient de lever le voile sur Wan2.2, une nouvelle génération de modèles vidéo open-source qui promet de bouleverser la production d’images animées de haute qualité reposant sur l’architecture Mixture-of-Experts (MoE).
La gamme Wan2.2 se décline en trois versions :
-
Wan2.2-T2V-A14B pour la génération texte vers vidéo,
-
Wan2.2-I2V-A14B pour la conversion image vers vidéo,
-
Wan2.2-TI2V-5B, un modèle hybride capable de traiter les deux tâches dans un environnement unifié.
Les modèles T2V-A14B et I2V-A14B intègrent chacun 27 milliards de paramètres, mais seulement 14 milliards sont activés à chaque étape du traitement. Cette organisation permet de réduire la charge de calcul jusqu’à 50 %. Le processus repose sur deux « experts » : le premier établit la structure et la disposition générale de la scène, tandis que le second affine les textures et les détails.
Contrôle précis et meilleure gestion des mouvements
Wan2.2 a été pensé pour offrir un contrôle fin sur les paramètres esthétiques : éclairage, moment de la journée, tonalité des couleurs, composition, angle de caméra ou longueur focale.
Selon Alibaba, ces modèles montrent également des progrès notables dans la gestion des mouvements complexes, qu’il s’agisse d’expressions faciales, de gestes ou d’actions rapides, tout en respectant davantage les contraintes physiques. Par rapport à la version précédente, Wan2.2 bénéficie d’un corpus élargi : +65,6 % d’images et +83,2 % de vidéos supplémentaires. Cette augmentation vise à améliorer la capacité de généralisation et à élargir les possibilités créatives, notamment pour des scènes et des mouvements plus complexes.
Un modèle compact pour un usage sur GPU grand public
Le modèle hybride TI2V-5B adopte une architecture VAE 3D à haute compression, atteignant un taux global de compression de 64. Il peut générer une vidéo 720p de 5 secondes en quelques minutes sur un GPU grand public, facilitant ainsi les expérimentations sur des configurations matérielles plus modestes.
Les modèles Wan2.2 sont proposés en libre accès sur Hugging Face, GitHub et ModelScope. Plus tôt cette année, Alibaba avait déjà mis en ligne Wan2.1 et Wan2.1-VACE, qui totalisent aujourd’hui plus de 5,4 millions de téléchargements. Avec cette nouvelle série, l’entreprise poursuit sa contribution à l’écosystème open-source de la vidéo générative, renforçant sa présence auprès des communautés de développeurs et de chercheurs.