Détruire les livres est en partie la raison pour laquelle la société a remporté la défense de la « Fair Use »
Wtf ?! L’IA générative a déjà fait face à de fortes critiques pour ses problèmes bien connus avec la fiabilité, sa consommation d’énergie massive et l’utilisation non autorisée du matériel protégé par le droit d’auteur. Maintenant, une récente affaire judiciaire révèle que la formation de ces modèles d’IA a également impliqué la destruction à grande échelle des livres physiques.
Enterré dans les détails d’une récente décision partagée contre Anthropic est une révélation surprenante: la société générative de l’IA a détruit des millions de livres physiques en coupant leurs liaisons et en jetant les restes, tous pour former son assistant AI. Notamment, cette destruction a été citée comme un facteur qui a fait pencher la décision de la Cour en faveur d’Anthropic.
Pour construire Claude, son modèle linguistique et son concurrent Chatgpt, Anthropic s’est formé sur autant de livres que possible. La société a acheté des millions de volumes physiques et les a numérisées en arrachant et en scannant les pages, détruisant en permanence les livres dans le processus.
En outre, Anthropic n’a pas l’intention de rendre les copies numériques qui en résultent accessibles au public. Ce détail a aidé à convaincre le juge que la numérisation et le grattage des livres constituaient une transformation suffisante pour se qualifier sous une utilisation équitable. Bien que Claude utilise vraisemblablement la bibliothèque numérisée pour générer un contenu unique, les critiques ont montré que les modèles de grandes langues peuvent parfois reproduire du matériel textuel à partir de leurs données de formation.
La victoire juridique partielle d’Anthropic lui permet désormais de former des modèles d’IA sur des livres protégés par le droit d’auteur sans notifier les éditeurs ou les auteurs originaux, en supprimant potentiellement l’un des plus grands obstacles auxquels l’industrie de l’IA génératrice est confrontée. Un ancien dirigeant de métal a récemment admis que l’IA mourrait du jour au lendemain si nécessaire pour se conformer à la loi sur le droit d’auteur, probablement parce que les développeurs n’auraient pas accès aux vastes touches de données nécessaires pour former des modèles de langue importants.
Pourtant, les batailles en cours de droit d’auteur continuent de constituer une menace majeure pour la technologie. Plus tôt ce mois-ci, le PDG de Getty Images a reconnu que l’entreprise ne pouvait pas se permettre de combattre toutes les violations des droits d’auteur liées à l’IA. Pendant ce temps, le procès de Disney contre MidJourney – où la société a démontré la capacité du générateur d’images à reproduire le contenu protégé par le droit d’auteur – pourrait avoir des conséquences importantes pour l’écosystème génératif d’IA plus large.
Cela dit, le juge de l’affaire anthropique a statué contre la société pour s’appuyer partiellement sur les bibliothèques de livres piratés pour former Claude. Anthropic doit toujours faire face à un procès sur le droit d’auteur en décembre, où il pourrait être condamné à payer jusqu’à 150 000 $ par travail piraté.