OpenAI poursuit son exploration du champ des agents intelligents avec Aardvark, un « agentic security researcher » propulsé par GPT-5. Cet outil, actuellement en bêta privée, se présente comme un chercheur de vulnérabilités automatisé, capable d’analyser des dépôts de code, de détecter des failles et de proposer des correctifs. Une avancée impressionnante sur le papier, mais qui soulève déjà des questions sur la fiabilité, la responsabilité et les limites d’une cybersécurité confiée à des IA autonomes.
Une IA qui « raisonne » comme un chercheur humain
Aardvark se distingue des outils traditionnels d’analyse de code. Plutôt que de recourir au fuzzing ou à la composition logicielle (SCA), il repose sur le raisonnement de haut niveau et l’usage d’outils pilotés par modèle de langage. L’agent « lit » le code, le teste, rédige des hypothèses d’exploitation, puis génère et valide des correctifs à l’aide de Codex. Son approche s’inspire directement du travail d’un chercheur humain : lecture, expérimentation, contextualisation. OpenAI y voit un moyen d’accélérer la détection de failles dans un contexte où plus de 40 000 vulnérabilités (CVE) ont été recensées en 2024, et où environ 1,2 % des commits introduisent des bugs exploitables.
Des performances déjà significatives
Selon OpenAI, Aardvark a été testé pendant plusieurs mois sur ses propres dépôts internes ainsi que chez des partenaires alpha. Les résultats sont prometteurs ; l’agent aurait identifié 92 % des vulnérabilités connues ou synthétiques dans les dépôts dits « golden ». Il aurait également permis la découverte et la divulgation responsable d’une dizaine de CVE dans des projets open source. Ces chiffres, bien qu’impressionnants, demandent à être confirmés à plus grande échelle et sur des environnements de production réels, où la complexité logicielle et la variabilité du code sont autrement plus importantes.
Un modèle collaboratif plutôt que punitif
OpenAI met en avant une philosophie de divulgation coopérative : plutôt que d’imposer des délais rigides de publication, l’entreprise souhaite favoriser la collaboration entre chercheurs et développeurs. Dans la continuité, elle prévoit de proposer un programme pro bono de scanning pour les dépôts open source non commerciaux, afin de contribuer à la sécurisation de la chaîne logicielle mondiale. Cette ouverture contraste avec la tendance actuelle à la fermeture des grands modèles, mais pose aussi la question : quelle gouvernance pour un agent capable d’intervenir sur du code tiers ?
Les promesses et les zones d’ombre
Sur le plan stratégique, Aardvark marque un changement de paradigme : l’IA ne se contente plus d’assister les développeurs, elle devient un acteur autonome de la défense logicielle. Mais la promesse de « raisonner comme un humain » dans un domaine aussi critique que la sécurité pose plusieurs défis. Tout d’abord, du côté de la fiabilité des détections : les faux positifs ou faux négatifs peuvent générer de nouveaux risques si les correctifs proposés sont appliqués sans vérification approfondie. Autre point critique : la responsabilité juridique. Qui sera tenu responsable en cas de patch erroné ou de vulnérabilité non détectée ? Enfin, l’analyse automatisée de dépôts privés soulève des enjeux de souveraineté et de protection des données sensibles.
Vers une nouvelle ère de la défense augmentée ?
En s’inscrivant dans la mouvance des « agents GPT-5 », Aardvark illustre la montée en puissance de l’intelligence opérationnelle déléguée : des IA spécialisées, autonomes dans leur champ d’action, capables d’agir en boucle fermée. Si le potentiel est immense, la prudence reste de mise. Entre outil d’assistance avancée et futur membre à part entière des SOC, Aardvark ouvre un champ d’expérimentation aussi prometteur que sensible : celui d’une cybersécurité où la machine devient, littéralement, un défenseur actif.
 
                 
                             
            








