Accueil Intelligence artificielle Hallucinations : quels modèles de langage d’IA sont les plus touchés ?

Hallucinations : quels modèles de langage d’IA sont les plus touchés ?

La startup française Giskard a révélé les premiers résultats de son benchmark dénommé Phare. Ce dernier évalue les hallucinations des principaux modèles de langages et offre une analyse intéressante pour d’une part comprendre les origines de ces phénomènes et d’autre part lister les plus touchés.

Phare est un projet développé par Giskard avec Google DeepMind, l’Union européenne et Bpifrance comme partenaires de recherche et de financement.

Les hallucinations sont des réponses erronées ou trompeuses données par l’IA qui les annoncent comme vraies. Comment cela se produit-il ? Rappelons dans un premier temps que les LLM fonctionnent à l’entraînement sur d’immenses bases de données. Celles-ci leur permettent de prédire des ensembles de mots. Mais si cet entraînement se compose d’informations incomplètes, biaisées ou même malveillantes, alors de fausses réponses font leur apparition ainsi que des hallucinations pour tenter coûte que coûte de trouver une réponse… que le modèle ne possède pas !

La méthodologie de Phare

Pour son benchmark Phare, Giskard a suivi une méthodologie précise, qu’il partage en ligne : « un processus d’évaluation systématique pour garantir une évaluation cohérente et équitable des différents modèles linguistiques. » Celui-ci s’organise de la manière suivante : la collecte de contenu spécifique et authentique des LLM, leur transformation en cas de test d’évaluation, une vérification humaine de ces échantillons et enfin l’évaluation des modèles.

Cette évaluation correspond à une série de quatre tests. Le premier vise à mesurer avec précision la capacité des modèles à récupérer et communiquer une information. Le deuxième test analyse leur niveau de détection d’une question ambiguë ou biaisée et s’ils réussissent à ne pas tomber dans le piège d’une réponse spéculative. Ensuite, Phare note s’ils repèrent les affirmations complotistes ou anecdotes sans fondements. Enfin, il évalue la fiabilité de leur utilisation des outils externes.

Des résultats éloquents

Le tableau ci-dessous, publié par Giskard, nous montre que les LLM les plus utilisés ne sont pas forcément les plus fiables. Les taux d’erreurs sont particulièrement élevés chez Google, Meta, Anthropic et même, dans une moindre mesure, OpenAI. Dans son analyse, la plateforme de test remarque que les réponses sont très influencées par les requêtes et notamment par le ton de ses dernières. L’IA semble se comporter comme un véritable miroir ; si vous délivrez une demande comportant des erreurs, mais avec entrain, assurance et arguments dits d’autorités, alors le modèle répondra positivement dans votre sens, même s’il s’agit de pures hallucinations. Autre point notable, la demande de réponses brèves vient drastiquement baisser leur résistance aux hallucinations, jusqu’à 20 % enregistré.

Résultats du benchmark Phare ©Giskard

Prochainement, Phare dévoilera d’autres résultats sur les préjugés, l’équité, la nocivité et les vulnérabilités des abus intentionnels.