Accueil Analytics AVIS D’EXPERT – Récupération des données : le véritable moteur de l’IA...

AVIS D’EXPERT – Récupération des données : le véritable moteur de l’IA en entreprise

Les projets d’IA générative en entreprise ne se jouent pas uniquement sur le choix du modèle. Derrière les promesses des grands LLM, un autre enjeu devient central, celui de la capacité à récupérer, structurer et contextualiser correctement les données internes. Pour Matthieu Jonglez, SVP Product and Engineering – Application & Data Platform chez Progress Software, la qualité des réponses produites par une IA dépend avant tout de la stratégie de récupération des connaissances mise en place. Une approche devenue essentielle pour limiter les hallucinations, fiabiliser les usages métiers et transformer les moteurs de recherche internes en véritables outils de réponse.

La génération augmentée par récupération (RAG) s’articule autour de trois étapes clés : la récupération des données, le raisonnement et la génération. La récupération consiste à extraire l’information pertinente de la base de connaissances de l’entreprise. L’étape du raisonnement, elle, se charge d’interpréter, d’organiser et de lier ces informations afin d’élaborer une réponse. Enfin, la génération traduit ce raisonnement en une réponse structurée, logique et rédigée en langage naturel.

La première étape sert à définir le périmètre sur lequel le modèle est autorisé à raisonner. Tout ce qui suit est strictement défini par cette phase initiale. En somme, la récupération crée une « réalité temporaire » pour le grand modèle de langage (LLM). Lorsque vous posez une question via un système RAG, l’étape de récupération permet de sélectionner un échantillon restreint de données issues des systèmes (documents, procédures, contrats, etc.). Cette sélection devient alors l’unique source de vérité du modèle dans le cadre de cette interaction précise.

C’est précisément grâce à cette mécanique de récupération des données que la RAG apporte une valeur stratégique aux entreprises : elle est capable de dire « non » à une question. Si une donnée n’est pas récupérée, cela signifie qu’elle n’existe tout simplement pas pour le système. Si le contexte est manquant, le modèle ne peut pas l’inventer par déduction. L’IA ne peut pas « réessayer », car elle n’a pas la capacité de naviguer seule dans vos dossiers, ni de remettre en cause les données qui lui ont été fournies. L’étape de génération ne peut exploiter que les informations préalablement extraites pour formuler sa réponse.

Comment les stratégies de récupération des données répondent-elles aux enjeux des entreprises ?

La limite des LLM généralistes : les hallucinations

La récupération de données permet de résoudre l’un des plus grands défis actuels de l’IA générative : les hallucinations. Lorsqu’un utilisateur pose une question à un LLM classique, celui-ci n’a que deux options : puiser dans ses données d’entraînement, ou combler les lacunes par un langage plausible, selon les statistiques. La plupart des hallucinations surviennent parce que le modèle est contraint de « deviner » une réponse sans s’appuyer sur des informations concrètes.

La RAG change radicalement cette dynamique en injectant des preuves d’autorité au moment où le LLM formule sa réponse. Au lieu de se reposer sur sa mémoire, ou sur des probabilités, la récupération des données permet d’extraire des informations issues de documents réels, fait remonter les passages exacts et fournit un ancrage factuel aux réponses générées. Comme mentionné précédemment, cela rend également possible les réponses de type « je ne sais pas », car le système peut détecter l’absence de connaissances, ou de preuves pertinentes. Enfin, grâce à cette étape, les réponses doivent renvoyer à des sources réelles, garantissant ainsi la citation des sources et la traçabilité des informations.

Des connaissances dispersées et invisibles pour l’IA

Si la RAG peut atténuer certains problèmes relevant des IA généralistes, elle peut aussi générer de nouveaux enseignements issus des données de l’ensemble de l’entreprise. Les entreprises disposent de connaissances dispersées dans des outils tels que SharePoint ou Google Drive, des PDF, des systèmes de tickets, des CRM, des wikis, des e-mails et d’autres outils internes. Une IA généraliste est

incapable d’avoir une vision d’ensemble sur ces connaissances, et les fenêtres de contexte limitent généralement la quantité d’informations que l’on peut transmettre à un LLM lors de chaque interaction. De plus, la majeure partie du contenu est rédigée par et pour des humains, en supposant qu’ils maîtrisent le contexte préalable, la terminologie interne et la structure de l’information (tableaux, en-têtes, notes de bas de page, etc.). Lorsqu’ils sont traduits par une IA généraliste, le sens des contenus peut se perdre.

Relever ce défi nécessite une récupération de données qui va au-delà de la simple recherche, ou de la correspondance sémantique. Une couche de récupération de type « agentique » se connecte au savoir partout où il se trouve et traite ces systèmes distribués comme une couche de connaissance unique et gouvernée, plutôt que comme des cas isolés. Le contenu rédigé par les utilisateurs est intégré et reprend sa structure, sa sémantique et le langage propre au domaine, ce qui aide à préserver le sens à travers les documents, les tableaux, les en-têtes et les notes de bas de page, au lieu de le réduire à un texte fragmenté. Au moment de la requête, des stratégies de récupération sont utilisées pour assembler le contexte le plus pertinent pour y répondre.

Les moteurs de recherche traditionnels manquent de contexte et de réponses

Les systèmes de recherche traditionnels ont été pensés pour renvoyer vers des documents, pas pour fournir des réponses. C’est le cas notamment avec SharePoint. Les employés se retrouvent face à de longues listes de fichiers, de PDF et de liens. C’est ensuite à l’utilisateur qu’il incombe de lire, d’interpréter et de recouper les informations par lui-même. Le contexte est souvent éparpillé dans plusieurs documents, l’obligeant à jongler entre les différentes sources, tout en espérant ne rien oublier d’important. Même lorsque les résultats des recherches sont techniquement « pertinents », ils font rarement remonter le passage spécifique, ou la logique opérationnelle nécessaire, pour répondre à une question.

La récupération transforme la recherche d’informations : d’un outil d’accès à des documents, elle devient un outil de réponse. Au lieu de renvoyer des fichiers entiers, elle opère au niveau du paragraphe, identifiant et hiérarchisant les sections de contenu les plus cruciales. Plusieurs techniques de récupération peuvent s’associer pour combiner compréhension sémantique, précision des mots-clés, filtrage par métadonnées ou étiquettes, et collecte de preuves en plusieurs étapes, afin d’extraire l’information pertinente des systèmes et des sources. Une fois récupéré, ce contexte est assemblé en un ensemble de connaissances cohérent avant même que le moindre raisonnement, ou la moindre génération, n’intervienne. Cela permet à l’IA de produire des réponses justifiées et précises, basées sur des preuves réelles.

Pourquoi une stratégie de récupération est plus importante qu’un LLM

De nombreuses initiatives d’IA d’entreprise se concentrent sur le choix du « bon » modèle de génératif, en partant du principe qu’une meilleure génération conduira à de meilleures réponses. Pourtant, même les modèles les plus avancés restent limités aux informations qui leur sont fournies au moment de la requête. Si les connaissances adéquates ne sont pas récupérées, ou s’il leur manque du contexte, de la structure ou de la pertinence, le modèle est contraint de deviner ce qui mène à des hallucinations. C’est pourquoi changer de modèle suffit rarement à résoudre les problèmes de précision, de confiance ou d’adoption dans des environnements d’entreprise réels.

Ce qui distingue une IA expérimentale d’une IA opérationnelle, ce n’est pas l’intelligence du modèle, mais l’intelligence de la récupération des données. Les stratégies de récupération avancées interprètent activement l’intention de l’utilisateur, sélectionnent la méthode de recherche appropriée et rassemblent des preuves à travers plusieurs sources avant même qu’une réponse ne soit générée. Au lieu de s’appuyer sur une méthode unique, les systèmes intelligents orchestrent plusieurs approches : sémantique, par mots-clés, par filtrage ou en plusieurs étapes. Cela permet à l’IA de reconstituer l’intégralité du contexte derrière une requête, plutôt que de renvoyer des fragments d’information isolés.

À mesure que les cas d’usage des entreprises deviennent plus complexes, la récupération doit elle aussi gagner en autonomie. Les systèmes doivent être capables de déterminer quelles informations sont manquantes, de récupérer du contexte supplémentaire, si nécessaire, et de valider que les réponses sont ancrées dans des sources d’autorité. Cette approche de la récupération pilotée par des agents permet d’obtenir des réponses de l’IA qui sont non seulement précises, mais aussi explicables, auditables et alignées sur le fonctionnement réel de l’entreprise. Dans l’IA d’entreprise, la stratégie de récupération n’est pas un simple détail de mise en œuvre ; c’est le socle qui détermine si les réponses sont dignes de confiance ou inutilisables.

De l’expérimentation à une IA opérationnelle

L’étape de la récupération des données détermine si l’IA d’entreprise va réussir ou échouer. Lorsque les connaissances sont fragmentées, que le contexte est perdu et que les réponses sont assemblées à partir d’informations incomplètes, même les modèles les plus avancés ont leurs limites. En plaçant la récupération au cœur de la solution, les entreprises peuvent dépasser le stade de l’IA expérimentale pour s’orienter vers des solutions précises, explicables et dignes de confiance. Ce changement de paradigme transforme l’IA : d’une simple curiosité technologique, elle devient un atout majeur fiable, générant des résultats concrets à travers les flux de travail et les cas d’usage des équipes.