ChatGPT : OpenAI présente un argument choquant en faveur de l’utilisation de contenus protégés par le droit d’auteur !

TECH ACTUS – Face à un nombre croissant de poursuites, le développeur de ChatGPT, OpenAI, insiste sur le fait que l’utilisation de contenu protégé par le droit d’auteur pour former des LLM est une utilisation équitable.

 

 

Quelques semaines seulement après avoir été poursuivi par le New York Times pour avoir copié et utilisé « des millions » d’articles de presse protégés par le droit d’auteur pour former de grands modèles de langage tels que ChatGPT, OpenAI a déclaré que le comité spécial des communications et du numérique de la Chambre des Lords britannique (d’après The Guardian) que vous vous devez utiliser du matériel protégé par le droit d’auteur pour construire vos systèmes, sinon ils ne fonctionneront pas. “C’est ça, fais avec.”

Les modèles en grand langage (LLM), qui constituent la base des systèmes d’IA comme le chatbot ChatGPT d’OpenAI, collectent d’énormes quantités de données provenant de sources en ligne pour « apprendre » comment travailler.

Cela devient un problème lorsque les questions de droits d’auteur entrent en jeu. Le procès du Times, par exemple, affirme que Microsoft et OpenAI « cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement ».

Ils ne sont pas les seuls à s’opposer à cette approche. Un groupe de 17 auteurs, dont John Grisham et George R.R. Martin, ont porté plainte contre OpenAI en 2023, l’accusant de « vol systématique à grande échelle ».

Dans sa présentation à la Chambre des Lords, des développeurs de ChatGPT ne nie même pas l’utilisation de matériel protégé par le droit d’auteur. Au contraire, il prétend que tout cela est un usage loyal – et de toute façon, il n’a tout simplement pas d’autre choix !

“Parce que le droit d’auteur couvre aujourd’hui pratiquement tous les types d’expression humaine, y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux, il serait impossible de former les principaux modèles d’IA actuels sans utiliser de matériel protégé par le droit d’auteur”, ont-ils écrit.

“Limiter les données de formation aux livres et dessins du domaine public créés il y a plus d’un siècle pourrait donner lieu à une expérience intéressante, mais ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui.”

On peut se demander à quel point cet argument est convaincant. Par exemple, si quelqu’un était arrêté pour un vol de banque, je ne pense pas que cela aurait beaucoup de poids aux yeux des flics s’ils lui disaient que c’était le seul moyen d’obtenir la somme d’argent dont ils avaient besoin. C’est certes un peu simpliste. Il est possible que les avocats d’OpenAI puissent faire valoir avec succès que l’utilisation sans licence de matériel protégé par le droit d’auteur pour former des LLM entre dans les limites d’une utilisation équitable. Mais la justification de l’utilisation d’œuvres protégées par le droit d’auteur sans le feu vert du créateur original se résume finalement à “Mais nous le voulions vraiment, vraiment !!”

La position des développeurs de ChatGPT selon laquelle l’utilisation de matériel protégé par le droit d’auteur ne viole aucune règle est au cœur de l’utilisation équitable. Dans sa soumission à la chambre haute, il a affirmé que « OpenAI se conforme aux exigences de toutes les lois applicables, y compris les lois sur le droit d’auteur », et a développé ce point dans une mise à jour publiée aujourd’hui.

“La formation de modèles d’IA à l’aide de documents Internet accessibles au public est une utilisation équitable, comme le soutiennent des précédents de longue date et largement acceptés”, a écrit OpenAI. “Nous considérons ce principe comme équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis.”

“Le principe selon lequel la formation de modèles d’IA est autorisé en tant qu’utilisation équitable est soutenu par un large éventail d’universitaires, d’associations de bibliothèques, de groupes de la société civile, de startups, de grandes entreprises américaines, de créateurs, d’auteurs et d’autres qui ont récemment soumis des commentaires au US Copyright Office. D’autres régions et pays, notamment l’Union européenne, le Japon, Singapour et Israël, ont également des lois autorisant des modèles de formation sur des contenus protégés par le droit d’auteur, un avantage pour l’innovation, le progrès et l’investissement en matière d’IA.”

OpenAI a déclaré dans son dossier à la Chambre haute qu’elle « continue de développer des mécanismes supplémentaires pour permettre aux titulaires de droits de se retirer de la formation » et qu’elle a conclu des accords avec diverses agences, comme celle qu’elle a signée avec Associated Press en 2023, dont elle espère qu’elle « générera bientôt des partenariats supplémentaires.

Soyons honnêtes : cela ressemble à peu près au principe « Je préfère demander pardon plutôt que la permission ». Peut-être que les agences et les entreprises seraient plus sages de signer une sorte d’accord avant qu’un tribunal ne décide que les sociétés d’IA font ce qu’elles veulent…

Source : OpenAI, The Guardian

Spread the love
Avatar photo
"Historian by profession, gamer since historical times."