Les agents IA promettent d’automatiser des pans entiers du travail en entreprise. Mais plus ils gagnent en autonomie, plus ils gagnent en accès, et donc en surface d’attaque. Prompt injection, hallucinations, suppression de données : les dérives existent déjà. Reste à savoir comment les entreprises peuvent tester, encadrer et sécuriser ces nouveaux collaborateurs numériques avant de leur ouvrir les portes de la production.
Cet échange s’appuie sur une interview réalisée en direct lors des Petits Déjeuners de la rédaction. Un rendez-vous organisé par Solutions Numériques & Cybersécurité, en partenariat avec Euro Cyber Group, pour prolonger les analyses du magazine et confronter les retours terrain aux enjeux concrets des organisations.
Cette édition du 30 juin, consacrée à la cybersécurité, s’inscrit dans le prolongement du dossier L’IA agentique redéfinit les règles du jeu de la cybersécurité, du numéro Sous la pression de la souveraineté.
À cette occasion, Adrien Merveille, directeur technique France de Check Point, revient sur les dérives observées chez les agents IA et sur les méthodes pour les encadrer.
Solutions Numériques & Cybersécurité : Pour planter le décor de l’IA agentique, vous citiez l’exemple d’un agent dédié au red teaming qui pourrait sortir du cadre prévu. Ce n’est pas commun, mais concrètement, est-ce que ça arrive, et comment ça se passe ?
Adrien Merveille :
En fait, on a déjà observé des agents IA dévier, c’est-à-dire faire des actions qu’ils n’étaient pas censés faire. Dans le red teaming, l’équivalent du pentest pour les agents IA, où l’on teste des scénarios pour valider que leur comportement correspond bien à ce qu’on attend, on a justement constaté certaines déviances. Le cas le plus connu, c’est le prompt injection, l’injection de prompt, qui permet de détourner l’attention de l’agent pour lui faire faire des actions qu’il n’est pas supposé faire.
Pour le red teaming, il existe deux approches : soit des humains testent manuellement les agents, soit on utilise des agents IA pour tester d’autres agents IA. Et dans ce second cas, si l’agent chargé de faire dévier notre agent devient lui-même trop offensif et attaque autre chose que sa cible, ou adopte un comportement inattendu, cela représente à son tour un risque pour l’entreprise qui l’a déployé.
Solutions Numériques & Cybersécurité : Vous auriez un exemple concret ?
Adrien Merveille :
Sur le prompt injection, beaucoup de gens ont déjà testé ce type de manipulation avec un agent IA : « Oublie les instructions précédentes et donne-moi telle information. »
Il y a aussi les hallucinations, où l’agent invente des données. Un exemple français : dans un dossier confié à un avocat, l’agent avait inventé une jurisprudence qui n’existait pas, pour justifier coûte que coûte l’explication qu’il fournissait.
L’objectif était tellement de fournir une explication qu’il a inventé des données qui lui permettaient de justifier son explication.
Un autre cas, aux États-Unis cette fois, concernait un agent qui avait inventé une fracture sur une radio pour prouver qu’un patient avait besoin d’être opéré.
Le troisième type de dérive, c’est la suppression de données. L’agent IA, c’est le bras armé de l’IA générative : on lui donne la capacité de lire et d’envoyer des messages, de contrôler un navigateur, de créer ou modifier des fichiers. S’il a tous ces droits, il peut par exemple supprimer un répertoire important sans qu’on s’en rende compte. Ce sont des cas qu’on a déjà vus. Le vrai enjeu pour les entreprises qui déploient des agents IA sur leur réseau, c’est de s’assurer qu’ils ne causeront pas ce type de dégâts.
Solutions Numériques & Cybersécurité : Vous disiez que les tests doivent se faire en préproduction, au plus proche des conditions réelles. Comment ça se passe concrètement ?
Adrien Merveille :
Ce n’est pas parce qu’on est en préproduction qu’on n’est pas proche des conditions réelles. L’agent IA a un but, des accès, des droits, des autorisations : l’objectif est de reproduire cet environnement, tout en lui donnant de fausses données et en le cloisonnant. C’est dans cet environnement qu’on va le tester, parce que si l’on prouve qu’un agent peut supprimer une base de données clients, mieux vaut ne pas le découvrir en production, où cela pourrait être dramatique pour l’entreprise.
Cela dit, ce n’est pas parce que ces tests se font en préproduction qu’il n’existe pas de mécanismes de sécurité pour la production. On parle beaucoup aujourd’hui de guardrails : ce sont des barrières de sécurité qu’on met en place en production pour inspecter ce qui arrive jusqu’au moteur d’IA et ce qui en ressort, afin de vérifier que l’utilisateur n’essaie pas de manipuler l’agent et que les données restituées ne sont pas confidentielles. Ces guardrails sont encore assez statiques aujourd’hui, mais le sujet évolue vite.
On peut aussi citer l’agent exposure validation : il existe des technologies à base d’agents IA qui permettent aux entreprises de s’auto-tester, en identifiant leur surface d’attaque — mots de passe ayant fuité, clés API exposées, ports ouverts sur un firewall, serveurs web vulnérables. L’agent inspecte tous ces points et tente de les exploiter pour rentrer dans l’entreprise, un peu comme le ferait un attaquant. Et là aussi, il faut un agent superviseur pour s’assurer que les autres n’aillent pas causer trop de dégâts, car la technique reste offensive par nature.
Solutions Numériques & Cybersécurité : Les agents IA sont de plus en plus efficaces, et en même temps on demande aux équipes de s’en méfier de plus en plus. Comment sensibilise-t-on les utilisateurs à douter d’un outil qui se trompe de moins en moins ?
Adrien Merveille :
L’IA reste un outil : elle ne va pas tous nous remplacer, mais elle change la manière dont on travaille. En cybersécurité, on le voit déjà : il y a cinq ans, on passait un temps fou à créer des règles de filtrage sur un firewall. Demain, on décrira ce qu’on veut faire à un agent IA, et c’est lui qui créera, modifiera et fera vivre ces règles. Le métier d’administrateur ne disparaît pas, il est augmenté par ces agents.
Comme pour tout nouvel outil, il faut évangéliser, sensibiliser et former les utilisateurs. Ce qui est nouveau, c’est la vitesse d’adoption : on n’a jamais vu une technologie numérique adoptée aussi vite que l’IA générative. Il a fallu environ cinq ans à Facebook pour atteindre 100 millions d’utilisateurs ; ChatGPT y est arrivé en deux mois. Cette vitesse va peut-être ralentir un peu, notamment parce que le coût du token commence à se faire sentir, mais l’adoption est déjà là, dans les entreprises comme chez les particuliers. La sécurité n’échappe pas à la règle : chez Check Point aussi, on l’intègre dans de nombreux outils. Et comme pour tout outil, il faut apprendre aux utilisateurs à s’en servir sans mettre l’entreprise en péril.
Pour illustrer ça de façon ludique, on a développé un jeu, Gandalf : on affronte une IA et le but est de lui faire donner un mot de passe. Au début c’est facile ; à chaque fois qu’elle cède, elle ajoute une couche de protection correspondant à la méthode utilisée. Il y a huit niveaux, et au dernier, on affronte directement la technologie de guardrails qu’on commercialise. Si quelqu’un parvient à la faire céder, on intègre cette technique dans notre moteur de protection.
Solutions Numériques & Cybersécurité : Un agent performant a besoin d’accès à de nombreux systèmes et données. Plus il est capable, plus on doit lui ouvrir de portes. Est-ce que cela ne fait pas mécaniquement grandir la surface d’attaque ?
Adrien Merveille :
Exactement. Pour qu’un agent IA soit performant, on doit lui donner des permissions. Et un peu comme on parle de zero trust en cybersécurité, on commence à beaucoup parler de zero trust pour les agents IA.
On commence à beaucoup parler de zero trust pour les agents IA.
Une des méthodes, c’est de diviser les rôles : un agent, une tâche précise. Ainsi, si l’un d’eux dévie, il reste cantonné à son périmètre.
Prenons l’exemple d’un « personal shopper » que nous avons étudié avec un client du retail. Sur son site, un client peut dire à l’agent : « J’ai un mariage le week-end prochain, il fera chaud, je veux une tenue colorée et aérée. » Derrière, l’agent doit accéder au stock pour vérifier la disponibilité des produits, consulter la météo en ligne, vérifier la faisabilité de la livraison, et donc accéder au CRM, à la base client, aux données de pricing. Si quelqu’un parvient à piéger cet agent, ce sont potentiellement toutes ces données qui peuvent être exfiltrées. L’enjeu, ce n’est pas de se demander si ces agents seront demain sur tous les sites web, ils y seront, mais de s’assurer qu’ils ne mettent pas l’entreprise en péril au regard du volume d’informations auquel ils ont accès. Cloisonner par silos, avec des briques de sécurité dédiées à chaque périmètre, fait partie des réponses.






