317 private links
Des palettes de vieux livres venant de librairies du monde entier sont expédiées vers les Etats-Unis. Des entreprises spécialisées en IA seraient à l'origine de cet accaparement massif de patrimoine. Elles utiliseraient ces livres comme données brutes pour entraîner leurs modèles de langage, puis les jetteraient après leur numérisation.
Le problème est bien de les jeter ensuite. Le mininum serait de les rediffuser en copie numérique, ou de les renvoyer.
L'entreprise de ce business serait "Zoom Books": Nous ciblons des ouvrages de non-fiction publiés à partir de 1970 et dotés d'un numéro ISBN – des invendus poussiéreux dont personne ne voulait depuis des années."
Quiconque numérise des textes et les diffuse sur Internet s'expose à des poursuites pour violation du droit d'auteur. Mais, aux Etats-Unis, la législation autorise l'entraînement de modèles d'IA à l'aide de livres acquis légalement. Si une entreprise achète de grandes quantités de livres d'occasion à bas prix, les désassemble et les numérise, les textes peuvent ensuite servir à entraîner des modèles d'IA.
C'est le principe étatsunien du "fair use", ou principe d'utilisation équitable. Il autorise l'utilisation d'œuvres protégées par le droit d'auteur sans l'autorisation expresse du titulaire des droits, à condition que cette utilisation serve l'éducation du public et stimule la production intellectuelle.
Parce que oui
À court terme, les libraires se réjouissent d'écouler leurs invendus. À long terme, cependant, un tout autre scénario se dessine. Si ces anciens livres sont détruits à grande échelle, ce patrimoine sera irrémédiablement concentré sous la forme d'une masse de données numériques possédée par quelques entreprises. Un accaparement discret, systématique et soumis à aucune délibération publique.
Et le copyright ne s'appliquera plus sur les livres ingurgités par les IA.