Accueil IA Bloquer les crawlers IA : quand le remède fait chuter l’audience

Bloquer les crawlers IA : quand le remède fait chuter l’audience

LLM crawler IA générée par chatgpt

À première vue, bloquer les robots des grands modèles de langage via robots.txt ressemble à un réflexe de défense : protéger ses contenus, reprendre la main, envoyer un signal. Sauf qu’une étude de Hangcheng Zhao (Rutgers Business School) et Ron Berman (The Wharton School), datée de décembre 2025, documente un effet contre-intuitif pour les gros sites : le blocage s’accompagne d’une baisse nette du trafic total… et d’une baisse tangible du trafic humain. Une alerte stratégique pour tous ceux qui vivent de la découverte et de la monétisation en ligne.

Une bascule de la découverte, pas un simple débat de scraping

Le papier “The Impact of LLMs on Online News Consumption and Production” part d’un constat simple : l’accès à l’information change de nature. Les interfaces pilotées par des LLM ne se contentent plus de renvoyer des liens, elles répondent et résument, ce qui peut substituer une partie des visites. Les auteurs prolongent des constats déjà établis par plusieurs travaux récents cités dans leur introduction : baisse des clics lorsque des résumés IA sont présents dans les résultats, et déplacement des usages au profit d’interfaces qui retiennent l’utilisateur plutôt qu’elles ne le redirigent. Ils citent notamment un article de The Economist sur la fragilisation du web et une analyse du Pew Research Center sur les comportements de clic en présence de résumés IA.

Le point important, pour un décideur numérique, est que la question n’est plus seulement “qui collecte quoi ?”, mais “qui contrôle l’accès à l’audience ?”. Car la visibilité devient une dépendance d’infrastructure.

Des chiffres, pas des impressions

Le papier de Zhao et Berman ne repose pas sur des impressions. Il agrège des données à haute fréquence et croise plusieurs angles : trafic global estimé par SimilarWeb, règles robots.txt et structure HTML via HTTP Archive, signaux de recrutement via Revelio Labs, et surtout un panel Comscore de navigation qui sert de proxy pour isoler les visites humaines. Cette architecture méthodologique permet de distinguer un artefact possible, la disparition d’un trafic “bot”, d’un phénomène plus sensible : la perte de lecteurs réels.

Les auteurs observent d’abord un recul de la fréquentation qui se matérialise surtout après août 2024, plutôt qu’un effondrement immédiat après l’arrivée de ChatGPT. Dit autrement, l’impact s’installe, puis devient visible. C’est un signal faible qui finit par devenir structurel.

Robots.txt : un levier technique… qui n’est pas une barrière

Le second point, souvent mal compris, est la nature même de robots.txt. Les auteurs rappellent que robots.txt relève d’un protocole d’exclusion, pas d’un mécanisme d’autorisation. Le standard RFC 9309 est explicite : ces règles ne constituent pas une forme d’accès autorisé. Cela compte, car on confond facilement “déclarer” et “empêcher”.

Ce détail technique a un effet stratégique direct : on peut réduire des voies de distribution et de découverte, sans être certain de neutraliser toutes les formes de collecte. Autrement dit, le blocage peut coûter en visibilité, tout en n’offrant pas une garantie totale sur l’usage en aval.

L’effet le plus dérangeant : la baisse touche aussi le trafic humain

Le résultat central est là : lorsque de grands sites introduisent des règles de désactivation visant des crawlers IA, l’étude observe une baisse significative du trafic total, et une baisse également mesurable sur le trafic humain dans les données Comscore. Le point n’est donc pas “on a fait disparaître du trafic automatisé”, mais “on a perdu des visites d’utilisateurs”.

Les auteurs notent d’ailleurs que certains sites ont fait marche arrière en 2024, après avoir constaté l’ampleur de l’impact. Et ils montrent une hétérogénéité selon la taille : les acteurs majeurs encaissent le choc le plus net, tandis que les sites intermédiaires peuvent, dans certains cas, connaître une évolution différente. Cette asymétrie est exactement ce qui transforme un sujet éditorial en sujet de gouvernance numérique : la capacité à “résister” n’est pas répartie équitablement, elle dépend de la position dans la chaîne de valeur.

Le “chantage systémique” : une lecture possible, mais qui appelle une stratégie

Dans la presse professionnelle, l’article de PPC Land a popularisé l’idée d’un piège : bloquer coûte en audience. Et sur LinkedIn, Damien Van Achter parle de “chantage systémique”, au sens où l’IA devient une infrastructure privée de découverte qui impose ses règles. On peut discuter le mot, mais le mécanisme que l’étude met en chiffres rend l’alerte difficile à ignorer : si les interfaces IA pèsent déjà sur la distribution, la réponse purement technique peut se retourner contre les éditeurs les plus exposés.

Pour les décideurs IT et numériques, la leçon dépasse le monde des médias. Dès qu’un écosystème dépend d’intermédiaires capables de répondre sans rediriger, l’arbitrage “protéger l’accès” versus “préserver la distribution” se transforme en sujet d’architecture de dépendance. Et quand le contrôle repose sur un protocole déclaratif, la marge de manœuvre se déplace : vers la négociation, la traçabilité, l’attribution et les conditions d’usage, plutôt que vers le seul verrouillage.