ACTUALITÉS TECH – L’entreprise de Mark Zuckerberg a utilisé des livres pour former des modèles d’intelligence artificielle, mais Meta n’avait pas exactement un accès légal au contenu…
Une action en justice pour violation du droit d’auteur est intentée contre Meta pour avoir utilisé le travail des auteurs pour former de grands modèles linguistiques (LLM). Des dizaines de courriels, prétendument échangés entre employés de Meta, affirment que les modèles d’IA de l’entreprise ont été piratés en masse à des fins de formation, et que les torrents téléchargés ont ensuite été semés. En janvier, des documents judiciaires ont révélé que Meta avait obtenu ses données de formation d’IA à partir d’une grande base de données de partage de fichiers, LibGen, qui contient tout, des articles de presse et des articles universitaires payants aux livres.
Meta est accusé d’avoir téléchargé plus de 80 téraoctets de données de LibGen et d’une autre « bibliothèque fantôme » appelée Z-Library. 80 To de données représentent presque 80 000 (!) gigaoctets ! C’est beaucoup. Il s’agit d’un piratage d’une ampleur peut-être sans précédent. Les courriels de l’entreprise documentent la décision de Meta de prendre des œuvres protégées par le droit d’auteur qu’elle savait être piratées et de les utiliser sans autorisation, malgré des préoccupations éthiques évidentes. Dans un courriel présenté comme preuve, un employé présumé de Meta conseille en vain d’utiliser du matériel piraté au-delà de leur seuil éthique, puis ajoute que LibGen et les bases de données similaires sont fondamentalement comme PirateBay ou quelque chose de similaire, distribuant du contenu protégé par le droit d’auteur et contrefaisant.
De nombreux courriels mentionnent des inquiétudes concernant l’utilisation de LibGen. Un chercheur de Meta a suggéré d’utiliser un VPN comme seul moyen d’y accéder, et a également plaisanté en disant qu’il ne semblait pas acceptable de télécharger des torrents à partir d’un ordinateur portable d’entreprise. Meta est donc passé en mode furtif, cachant l’activité en téléchargeant et en diffusant les torrents en dehors des serveurs officiels de Facebook. Selon l’accusation, cette correspondance suggère que les dirigeants de Meta, jusqu’à Mark Zuckerberg inclus, savaient que l’entreprise utilisait du matériel piraté pour entraîner ses modèles d’IA, et il est apparu que les employés de Meta pensaient également qu’OpenAI utilisait LibGen pour ses propres modèles, affirmant qu’il s’agissait d’une sorte de course aux armements à laquelle ils ont finalement eu recours.
Si Meta est reconnu coupable, quelle amende devra-t-il payer ? Et pourquoi Internet Archive (archive.org) n’est-il pas autorisé à prêter des livres en tant que bibliothèque numérique ?
Source : PCGamer, Ars Technica, Wired, Auditeur du tribunal