305 private links
L'article relate la gestion des bots d'IA: ils sont devenus un enfer depuis quelques temps.
Un site web ne se résume pas à des fichiers statiques : beaucoup de pages HTML sont générées dynamiquement par des CMS ou frameworks comme WordPress, Symfony ou Python. Chaque visite peut donc consommer du CPU, de la RAM, des accès base de données et de la bande passante. Quand des visites massives ou illégitimes arrivent, elles peuvent ralentir les sites des clients hébergés.
Jusqu’en 2023, les principaux robots étaient surtout des crawlers classiques comme Googlebot ou Bingbot. Certains bots mal réglés, comme Ahrefsbot, pouvaient poser problème, mais ils étaient généralement identifiables et blocables. Certains crawlaient très mal, visitant des milliers de sous-pages inutiles ou coûteuses, contournant les caches et saturant CPU/RAM.
Au début, la défense consistait à bloquer les bots via leur User-Agent, c’est-à-dire le nom qu’ils déclarent lorsqu’ils visitent un site.
Ensuite, certains bots ont commencé à se cacher derrière de faux User-Agent, en se faisant passer pour de vieux navigateurs ou appareils obsolètes. La stratégie de blocage consiste à interdire certaines plages IP de prestataires clairement identifiés et à bloquer certains navigateurs improbables ou représentant quasiment 0 % du trafic réel.
Cela demande du temps d’ingénieur, consomme des ressources serveur, de la bande passante, use les machines, et augmente donc les coûts continuellement.
Dernièrement en 2025, les bots ont commencé à avoir des IPs résidentielles et des User-Agent crédibles. Octopuce cite le cas d'un crawler sauvage utilisant 1,3 million d’adresses IP distinctes en deux semaines, dont 950 000 n’ont fait qu’une seule requête. Ces nouveaux crawls utiliseraient des téléphones Android via des applications douteuses permettant de monétiser la bande passante des utilisateurs. Cette méthode est illégitime et sûrement illégale.
Octopuce conclut sur l'utilisation d'Anubis comme parade partielle, mais aucune solution n'existe actuellement. Ce coût de l'IA n'est pas prise en compte dans le bilan environnemental réel des services d’IA.
100%
Le forum économique mondial qui se rend compte que sans junior, il n'y aura plus de mid et senior dans quelques temps. Ils estiment les problèmes à venir dans 5 ans.
The harder a piece of code is to parse, the more you will tend to rely on LLM-based analysis and generation to maintain and build from it. Illegibility to humans is vendor lock-in. That's the business model.
The enclosure of the FOSS commons may seem like a programmer-specific problem, but it really affects everyone. Privacy-preserving apps like Signal, for example, serve a purpose precisely because they're open and can be audited. Take away that ability to verify the developer's claims by parsing the code, and all guarantees are lost. The more that AI vendors succeed in locking in the FOSS commons, the less transparency we'll have into what our software actually does.
It is 0% coincidence that these technologies are being pushed by some of the least transparent companies on the planet.
TL;DR the take is argumented and ends with:
So don't get too worked up about an individual using LLMs, that's not what's undermining the very foundations of FOSS. It's a drivel-spewing idiot who's happily planning to sink another 100 billion $ on a probabilistic text generator. We're talking about people using money that could have solved several world-spanning problems - even profitted from doing so! - and still didn't. That's who we're talking about.
Mais justement, est-ce possible de gagner en précision en générant des échantillons synthétiques avec l’IA générative en toute « rigueur scientifique » ? Est-il possible, à partir de 116 interviews, de générer 464 autres de manière synthétique, pour obtenir un total de 580 interviews d’enseignants de collège et de lycée, ce qui nous amènerait à gagner en précision ?
« Je vais le dire clairement : si on part d’un échantillon de 116 individus, on aura la précision associée à un échantillon de 116 individus. On ne peut pas créer de l’information nouvelle à partir de rien. »
L’idée du projet Solara n’est pour autant pas dénuée d’intérêt. Si les agents IA tiennent leur promesse, ils pourraient effectivement aider à créer à la volée des interfaces et des outils bien plus adaptés aux besoins spécifiques de chaque utilisateur. Alors que les logiciels traditionnels (et même les OS) imposent un fonctionnement identique pour tous, un agent pourrait en théorie composer une expérience sur mesure et selon le contexte.
Mais au final, l'OS pourrait tourner sur Android, soit Linux. À la fin du projet, Microsoft abandonnerait donc Windows pour Linux.
Utiliser les IA et leurs MCP, c'est effectivement donner l'accès total des données utilisées par l'IA aux États-Unis.
De ce fait, le département d’Indre-et-Loire illustre le paradoxe français en matière de numérique. On parle de souveraineté à longueur de discours, mais quand vient le moment d’acheter, l’habitude et la facilité l’emportent. Le réflexe Microsoft est ancré depuis trente ans dans toutes les administrations. De plus, personne ne semble vouloir prendre le risque politique de basculer.
D'autres comme l'Île-de-France utilise cependant déjà des infrastructures européennes.
Pas bête la remarque: un système de DNS européen est primordial pour assurer la sécurité de l'accès à Internet.
It reduces the noise of the input and the AI consumes 90% less tokens. These tokens are less noise for the AI to compute.
Source: https://github.com/chopratejas/headroom
The documentation: https://headroom-docs.vercel.app/docs
The post poses one argument: AI empowers learning and it's easier than ever to learn 80% of the useful things in 20% time.
Des commits publiés dans la version 3.4.3 de rsync provoquent de sérieuses régressions (remplissage des disques, incremental backup failure)
. If you add all the providers’ estimates up, Sommer said, you get 100 to 200 quadrillion tokens a year. But to achieve the the $2 trillion in annual spend Gartner calculated, providers would need to be generating, by conservative estimates, a cumulative 10 sextillion tokens per year.
So the token consumption would need to grow by 50 000 - 100 000 until 2030.
It's hard for the market though because developers or users are known to switch between models.
The foundation has currently 3 projects:
- Define the AGENT.md file
- Develop Goose: Open-source AI agent to install, run, edit, and test with any LLM
- Define the MCP protocol
The Luddite Lab Resource Hub provides resources for unions, labor organizations, and worker-organizers fighting AI and automation at work.
AI costs more than it brings value compared to human worker