IA : Emo transforme des photos, associés à des enregistrements audio, en vidéos ultraréalistes

Alibaba Cloud vient d’annoncer un modèle d’IA générative qui fait parler ou chanter une personne, un personnage animé ou peint à partir d’une photo et d’une bande son.

EMO (Emote portrait alive) est capable de transformer des photos associés à des enregistrements audio, en vidéos ultraréalistes grâce à une technologie de synthèse audio avancée. L’IA arrive à faire mouvoir le visage fixe en respectant la morphologie (la bouche, le nez, les sourcils notamment) et les mots prononcés.
Cette technologie permet de créer des portraits animés sans recourir à des modèles 3D. Exemple d’une animation faciale.

Cela fonctionne aussi avec des personnages animés ou peints comme La Joconde.

Pour tester EMO, les chercheurs ont créé une base de données audio-visuelle comprenant 250 heures de contenu et 150 millions d’images.