ROMAIN LECLAIRE

News Tech - Opinion - Culture Numérique

IA et droits d’auteur - Le mythe de l’apprentissage sans copie s’effondre

IA
IA et droits d’auteur - Le mythe de l’apprentissage sans copie s’effondre

L'un des arguments de défense les plus solides de l'industrie de l'intelligence artificielle vient de subir un coup majeur. Depuis des années, les géants de la tech affirment que leurs modèles de langage apprennent à partir d'œuvres protégées par le droit d'auteur, mais ne les stockent sous aucune forme. Or, de récentes études démontrent que les IA les plus performantes au monde peuvent générer des copies presque parfaites de romans à succès, relançant ainsi un débat juridique et éthique particulièrement explosif.

Les enquêtes menées sur les grands modèles développés par des acteurs comme OpenAI, Google, Meta, Anthropic et xAI révèlent qu'ils mémorisent une proportion de leurs données d'entraînement bien supérieure aux estimations de départ. Yves-Alexandre de Montjoye, professeur à l'Imperial College de Londres, souligne que les preuves d'une mémorisation à grande échelle s'accumulent de jour en jour.

En 2023, Google assurait pourtant au bureau américain du droit d'auteur qu'aucune copie n'était présente dans la structure de ses modèles. L'industrie s'appuie traditionnellement sur le principe de l'utilisation équitable, expliquant que la technologie transforme l'œuvre originale pour créer quelque chose de nouveau. Des chercheurs des universités de Stanford et de Yale ont malgré tout réussi à faire générer par ces IA des milliers de mots tirés de romans célèbres comme Le Trône de Fer ou Le Hobbit. Les chiffres de cette étude sont éloquents, en complétant simplement des amorces de texte, l'IA Gemini 2.5 a restitué fidèlement près de 77% du premier tome de Harry Potter, tandis que Grok 3 a dépassé la barre des 70%.

La situation va encore plus loin avec le modèle Claude 3.7 Sonnet d'Anthropic. Les chercheurs ont extrait la quasi-totalité d'un roman en utilisant une technique de débridage (ou jailbreaking), qui consiste à manipuler l'IA pour qu'elle ignore ses propres protocoles de sécurité. Bien que des modèles au code source ouvert comme Llama soient déjà connus pour ce type de comportement, les experts ont été très surpris de constater que les modèles fermés, pourtant hautement sécurisés, présentaient exactement la même vulnérabilité.

La communauté scientifique ignore encore les raisons techniques précises qui poussent ces modèles à mémoriser des pans entiers d'informations. Cette tendance inquiète d'ailleurs d'autres secteurs tels que la santé ou l'éducation, où une simple fuite de données d'entraînement pourrait gravement compromettre la confidentialité des usagers. Pour les spécialistes du droit, cette faille pourrait engager une responsabilité financière colossale pour violation du droit d'auteur. Les avocats spécialisés en propriété intellectuelle estiment que ces découvertes détruisent la ligne de défense historique de l'industrie tech.

Les tribunaux commencent déjà à sévir face à ces pratiques. Aux États-Unis, la justice a estimé que le stockage d'œuvres piratées constituait une infraction irrémédiable, forçant Anthropic à conclure un accord à hauteur de 1,5 milliard de dollars pour éteindre des poursuites. En Europe, la justice allemande a condamné OpenAI pour la mémorisation de paroles de chansons. La reproduction intégrale d'un livre sans avoir recours à des techniques de piratage complexes est désormais perçue comme une violation évidente du droit d'auteur.

Face à la tempête, Anthropic se défend en affirmant que les techniques de débridage sont inapplicables pour un utilisateur normal, argumentant que l'IA ne stocke pas de copies mais apprend des schémas linguistiques complexes. De leur côté, OpenAI, xAI et Google ont préféré garder le silence.

Pour de nombreux observateurs, la simple existence de filtres de sécurité prouve que les laboratoires ont parfaitement conscience du problème sous-jacent. Certains chercheurs universitaires remettent même en question la nécessité d'utiliser du contenu protégé pour créer des modèles performants, rappelant qu'il appartiendra au système juridique de tracer les limites définitives de cette technologie.

Commentaires