Minimiser les risques liés aux données pour l’IA générative dans l’entreprise

31 octobre 2023

signée par Edouard Beaucourt, Country Manager France & VP Southern Europe de Snowflake

Pendant l’année 2023, l’industrie de la Tech a été indéniablement marquée par l’émergence de l’IA générative et des modèles de langages pré-entraînés. Au cours des douze derniers mois, on a vu clairement une accélération de l’intérêt et de l’engagement des entreprises qui ont rapidement reconnu la puissance du potentiel de celle-ci pour accélérer leur capacité d’innovation et augmenter leur productivité avec peu ou pas d’intervention humaine. Voici cinq clés importantes à garder à l’esprit pour développer une stratégie d’IA générative réussie.

Tout commence par la donnée

Pour réussir dans ce voyage vers l’IA générative, il faut tout d’abord partir du principe qu’une solide stratégie IA ne peut réussir que si, et seulement si, l’entreprise possède une stratégie de gestion des données mature et de qualité supérieure. Il est impossible d’avoir une stratégie d’IA aboutie sans avoir au départ une stratégie de données robuste. Cela signifie qu’il faut éliminer les silos et fournir des politiques simples et cohérentes qui permettent aux équipes d’accéder aux données dont elles ont besoin, le tout dans le cadre d’une posture de sécurité et de gouvernance renforcée. L’objectif final est de disposer de données exploitables et fiables auxquelles il est facile d’accéder pour les utiliser avec un LLM dans un environnement sécurisé et gouverné.

Le risque zéro n’existe pas

Pousser des données sensibles et propriétaires dans des grands modèles de langage (LLM) hébergés publiquement crée des risques significatifs en matière de sécurité, de confidentialité et de gouvernance. Il faut donc mettre en place une approche qui tienne compte de ces risques avant de pouvoir commencer à tirer profit de toute stratégie d’IA générative.

Comme le note le cabinet de conseil et d’analyses IDC, les entreprises aujourd’hui craignent, à juste titre, que les LLM puissent “apprendre” de leurs messages et divulguer ces informations à d’autres entreprises qui saisissent des messages similaires. Les entreprises craignent également que les données sensibles qu’elles partagent soient stockées en ligne et exposées à des pirates informatiques ou rendues accidentellement publiques. Pour la plupart des entreprises, en particulier celles qui opèrent dans des espaces réglementés, comme les secteurs de la finance ou de l’assurance, il n’est donc pas envisageable d’introduire des données et des messages-guides dans des LLM hébergés publiquement.

Encadrer les données avec un périmètre de sécurité et de gouvernance

La plupart des grandes entreprises maintiennent déjà une sécurité et une gouvernance solides autour de leurs données, les LLM devraient donc pouvoir être exploités et stockés dans cet environnement protégé. Cela permet une personnalisation plus pointue du LLM, et aux équipes d’interagir avec lui, le tout dans le périmètre de sécurité existant de l’organisation.

Construire des LLM spécifiques à un domaine

Les LLM fondamentaux formés sur l’ensemble du Web n’ont pas été exposés aux systèmes et données internes d’organisations spécifiques, ce qui signifie qu’ils ne peuvent pas répondre aux questions dédiées à votre entreprise, à vos clients et peut-être même à votre secteur d’activité. La solution consiste à étendre et à personnaliser un modèle pour qu’il soit adapté à votre entreprise. Bien que les modèles hébergés comme ChatGPT aient attiré l’attention, il existe une liste longue et croissante de LLM que les entreprises peuvent télécharger, personnaliser et utiliser derrière leur pare-feu, y compris des modèles open-source comme StarCoder de Hugging Face et StableLM de StabilityAI.

Outre des résultats de meilleure qualité, l’optimisation des LLM pour votre organisation peut également contribuer à réduire les besoins en ressources. Le fait de mieux cibler les LLM pour les cas d’utilisation dans votre entreprise vous aidera à exploiter les LLM de manière plus rentable et plus efficace.

Surface des données non structurées pour l’IA multimodale

Environ 80 % des données mondiales sont non structurées, y compris les données d’entreprise telles que les courriels, les images, les contrats et les vidéos de formation. Le réglage d’un modèle sur vos systèmes et données internes nécessite l’accès à toutes les informations qui peuvent être utiles à cette fin, et une grande partie d’entre elles sera stockée dans des formats autres que du texte. Pour extraire des informations de sources non structurées et les mettre à la disposition de vos data spécialistes, afin qu’ils puissent construire et former des modèles d’IA multimodaux capables de repérer les relations entre différents types de données et de faire remonter ces informations à la surface pour votre entreprise, il vous faut des technologies comme le traitement du langage naturel.

Pour conclure, quelle que soit l’approche adoptée en matière d’IA générative, mon conseil est de procéder délibérément, mais avec prudence. Il s’agit d’un domaine qui évolue rapidement et il me semble important de faire preuve de prudence. Cela signifie que les entreprises doivent prendre le temps de lire attentivement toutes les petites lignes qui forment les termes et conditions des modèles et des services qu’elles utilisent et travailler avec des fournisseurs réputés qui offrent des garanties explicites sur les modèles qu’ils fournissent. Qu’on se le dise, en ce qui concerne l’IA générative, nous sommes bel et bien à la croisée de chemins d’une nouvelle révolution technologique significative. L’immobilisme n’est plus une option et chaque entreprise doit explorer la manière dont l’IA peut potentiellement disrupter son secteur d’activité. Il faut trouver un équilibre entre les risques et les bénéfices. En rapprochant les modèles d’IA générative de vos données et en travaillant dans votre périmètre de sécurité existant, vous aurez plus de chances de réussir à intégrer cette nouvelle technologie.

miio franchit le cap des 200 000 utilisateurs