Accueil IA Voxral donne de la voix à l’IA de Mistral

Voxral donne de la voix à l’IA de Mistral

La start-up française lance des modèles centrés sur la reconnaissance vocale et la transcription dans plusieurs langues.

Avec le développement des systèmes numériques, la voix redevient la forme d’interaction homme-machine la plus naturelle… le chat en audio, c’est mieux. Et c’est encore mieux si la technologie met en œuvre une certaine forme d’intelligence contextuelle pour mieux comprendre la parole, et transcrit l’audio tout en fournissant une fluidité de traitement multilingue. La nouvelle brique logicielle Voxral de Mistral fait un peu tout cela, en conservant une conception open source.

« Nos modèles Voxtral sont disponibles en deux tailles : une variante 24 B pour les applications de production et une variante 3 B pour les déploiements locaux et périphériques. Ces deux versions sont publiées sous licence Apache 2.0. Nous avons également mis ces deux modèles à disposition sur notre API et fourni un point de terminaison de transcription exclusive hautement optimisé, offrant une rentabilité inégalée », précise Mistral.

Un modèle multi locuteur

Voxtral transcrit des contenus audio, en direct ou à partir de fichiers importés, en plusieurs langues allant de l’anglais au hindi et à l’arabe, reconnues automatiquement. En plus de répondre à des requêtes posées à l’oral, Voxtral peut aussi faire des résumés, et devrait prochainement reconnaitre plusieurs locuteurs, leurs caractéristiques (âge, sexe) mais aussi de leurs émotions.

Avec un prix d’usage réduit, l’API étant accessible à partir de 0,001 dollar la minute, le modèle vient fortement concurrencer des offres similaires, notamment Whisper d’OpenAI et Scribe d’ElevenLabs,