304 private links
L'article relate la gestion des bots d'IA: ils sont devenus un enfer depuis quelques temps.
Un site web ne se résume pas à des fichiers statiques : beaucoup de pages HTML sont générées dynamiquement par des CMS ou frameworks comme WordPress, Symfony ou Python. Chaque visite peut donc consommer du CPU, de la RAM, des accès base de données et de la bande passante. Quand des visites massives ou illégitimes arrivent, elles peuvent ralentir les sites des clients hébergés.
Jusqu’en 2023, les principaux robots étaient surtout des crawlers classiques comme Googlebot ou Bingbot. Certains bots mal réglés, comme Ahrefsbot, pouvaient poser problème, mais ils étaient généralement identifiables et blocables. Certains crawlaient très mal, visitant des milliers de sous-pages inutiles ou coûteuses, contournant les caches et saturant CPU/RAM.
Au début, la défense consistait à bloquer les bots via leur User-Agent, c’est-à-dire le nom qu’ils déclarent lorsqu’ils visitent un site.
Ensuite, certains bots ont commencé à se cacher derrière de faux User-Agent, en se faisant passer pour de vieux navigateurs ou appareils obsolètes. La stratégie de blocage consiste à interdire certaines plages IP de prestataires clairement identifiés et à bloquer certains navigateurs improbables ou représentant quasiment 0 % du trafic réel.
Cela demande du temps d’ingénieur, consomme des ressources serveur, de la bande passante, use les machines, et augmente donc les coûts continuellement.
Dernièrement en 2025, les bots ont commencé à avoir des IPs résidentielles et des User-Agent crédibles. Octopuce cite le cas d'un crawler sauvage utilisant 1,3 million d’adresses IP distinctes en deux semaines, dont 950 000 n’ont fait qu’une seule requête. Ces nouveaux crawls utiliseraient des téléphones Android via des applications douteuses permettant de monétiser la bande passante des utilisateurs. Cette méthode est illégitime et sûrement illégale.
Octopuce conclut sur l'utilisation d'Anubis comme parade partielle, mais aucune solution n'existe actuellement. Ce coût de l'IA n'est pas prise en compte dans le bilan environnemental réel des services d’IA.