Le géant chinois Alibaba poursuit son offensive dans le domaine de l’intelligence artificielle générative. Après avoir publié les modèles Wan2.1 puis Wan2.2, le groupe dévoile aujourd’hui Wan2.2-S2V (Speech-to-Video), un modèle open-source conçu pour transformer de simples portraits en avatars numériques capables de parler, chanter ou jouer des scènes entières.
Une technologie qui dépasse le “talking-head”
Alors que de nombreuses solutions d’IA se limitent à animer des visages de manière rudimentaire, Wan2.2-S2V innove en combinant guidage audio et pilotage textuel. Concrètement, une photo et un extrait vocal suffisent pour générer une séquence vidéo où le personnage bouge, interagit et s’inscrit dans différents cadrages, du gros plan au plan en pied.
Le modèle ne se limite pas à la synchronisation labiale : il est capable de générer des comportements réalistes, qu’il s’agisse de dialogues ou de séquences musicales, avec la possibilité d’animer plusieurs personnages dans une même scène. Le rendu visuel atteint une qualité cinématographique, avec des résolutions adaptables en 480p et 720p.
Vers des vidéos plus fiables
L’innovation d’Alibaba repose également sur une compression intelligente des séquences d’images. En réduisant le poids des données historiques, Wan2.2-S2V minimise la charge de calcul. Résultat : la génération de vidéos longues gagne en stabilité, une avancée notable dans un domaine où la durée reste un défi technique majeur.
L’entraînement du modèle s’est appuyé sur un jeu de données audio-visuelles développé spécialement pour des usages cinématographiques et télévisuels. Grâce à une approche multi-résolution, les créateurs peuvent travailler aussi bien sur des contenus courts destinés aux réseaux sociaux que sur des formats plus traditionnels pour le cinéma ou la télévision.
Une ouverture stratégique vers l’open source
Dans un secteur où la compétition entre géants de la tech s’intensifie, Alibaba fait le choix de l’ouverture. Wan2.2-S2V est disponible sur Hugging Face, GitHub et ModelScope, la plateforme open source d’Alibaba Cloud. La série Wan, lancée en février 2025, totalise déjà près de 7 millions de téléchargements.
En adoptant cette stratégie, Alibaba cherche à renforcer son écosystème et à séduire la communauté mondiale des développeurs et créateurs de contenu. Une manière d’accélérer l’adoption de ses modèles face à la concurrence occidentale, tout en s’imposant comme un acteur incontournable de la vidéo générée par IA.