Accueil Zoom partage les dernières évaluations de son système d’intelligence artificielle fédéré

Zoom partage les dernières évaluations de son système d’intelligence artificielle fédéré

L’éditeur américain Zoom a récemment dévoilé certains des progrès de sa division IA, infusée à travers l’ensemble de sa plateforme de communication et de collaboration, par l’intermédiaire de son blog officiel. L’entreprise y a détaillé les performances qu’elle a obtenues sur les benchmarks Humanity’s Last Exam (HLE) et DeepSearchQA avec des résultats chiffrés, tout en ouvrant des interrogations sur leur portée réelle et sur la manière dont ils doivent être interprétés.

Zoom affirme que son système d’intelligence artificielle, a atteint un nouveau score de référence sur le benchmark « Humanity’s Last Exam » (HLE), un ensemble de questions destiné à tester la profondeur de raisonnement et la compréhension experte des modèles d’IA. Selon l’éditeur, son système a obtenu un score de 48,1 %, dépassant le précédent meilleur résultat de 45,8 % attribué au modèle Gemini 3 Pro avec intégration d’outils.

Le benchmark HLE est conçu pour dépasser les anciens tests d’évaluation d’IA et couvre une grande variété de domaines que seul un raisonnement expert est censé résoudre, allant au-delà de questions de type factuel ou de récupération d’information. Ce résultat illustre une tendance plus large dans l’industrie à se mesurer à des défis jugés plus rigoureux que les tests traditionnels, mais il reste à observer comment ces chiffres se traduisent dans des applications concrètes ou si ces progrès traduisent réellement un niveau humain de capacité cognitive.

À garder en tête que Zoom détaille une approche différente des autres modèles évalués, à travers une architecture qu’elle qualifie d’IA agentique « fédérée ».  Cette orientation repose sur la combinaison de plusieurs modèles d’intelligence artificielle au sein d’une même structure, plutôt que sur l’utilisation d’un modèle unique. L’objectif est d’orchestrer ces modèles afin d’exploiter leurs capacités de manière complémentaire, ce qui explique aussi ces résultats favorables.

Dans ce cadre, Zoom partage également ses résultats dans le cadre du benchmark DeepSearchQA (sur des tâches de recherche d’information complexes et multi-étapes), où son architecture fédérée aurait obtenu une précision de 76,3 %, dépassant nettement les scores enregistrés par des modèles individuels concurrents.

Zoom mentionne que l’ajout de versions plus récentes de modèles pourrait encore améliorer ces scores. Ces deux publications présentent certes des résultats chiffrés issus de tests de référence, qui offrent un premier niveau de lecture. Cependant, ces performances ont été mesurées dans des conditions expérimentales et devront être confrontées à des usages réels pour en évaluer la portée concrète, en particulier en environnement professionnel.