Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

Les enjeux du droit d’auteur à l’ère de l’intelligence artificielle (IA) : entre exceptions et interprétations

La propriété intellectuelle est entrée dans une zone de turbulences provoquées par les IA génératives. L’utilisation d’œuvres reste soumise à l’autorisation des auteurs, mais le droit d’auteur est limité dans certains cas comme la fouille de textes et de données. L’AI Act sera à interpréter.

Par Jade Griffaton et Emma Hanoun, avocates, DJS Avocats*

La récente législation européenne sur l’intelligence artificielle (IA) – l’AI Act dans sa dernière version de compromis final datée du 26 janvier 2024 (1) (*) (**) – adopte une définition flexible de « système d’IA », désigné comme « un système basé sur des machines conçues pour fonctionner avec différents niveaux d’autonomie et d’adaptabilité après leur déploiement et qui, à partir des données qu’il reçoit, génère des résultats tels que des prédictions, du contenu, des recommandations ou des décisions pouvant influencer des environnements physiques ou virtuels » (2).

Exception de « fouille de textes et de données »
La question de la relation entre le droit de la propriété littéraire et artistique et l’IA est une préoccupation ancienne. Lors de la phase d’entraînement, le système d’IA reçoit des données. A ce stade, se pose la question de l’intégration de contenus protégés par le droit d’auteur aux fins du développement du système. Lors de la phase de génération, le système d’IA génère des résultats, voire des créations, à la demande de l’humain. Se pose alors la question de l’encadrement juridique de ces créations générées, en tout ou partie, par un système d’IA. Ces problématiques juridiques actuelles doivent être envisagées à la lumière des nouveaux textes destinés à réguler le domaine de l’IA, et notamment la récente proposition de règlement européen sur l’IA, et la proposition de loi française visant à encadrer l’utilisation de l’IA par le droit d’auteur (3).
De nouveaux contours de la possibilité d’utiliser des œuvres pour entraîner l’IA ? Les systèmes d’IA ont besoin, au stade de leur apprentissage et développement, d’avoir accès à de grands volumes de textes, images, vidéos et autres données. Ces contenus sont susceptibles d’être protégés par le droit d’auteur. L’objectif principal du règlement IA, dévoilé en 2021 par la Commission européenne, consiste à réguler les systèmes d’IA introduits sur le marché européen, en adoptant une approche axée sur les risques et en assurant un niveau élevé de protection des droits fondamentaux, de la santé publique, de la sécurité et de l’environnement.

Pour la protection de leurs œuvres, les auteurs ont un droit d’opt-out, mais est-il efficace ?

Les IA génératives sont voraces et insatiables : elles ingurgitent de grandes quantités de données pour s’améliorer sans cesse. Problème : les ChatGPT, Midjourney et autres Bard utilisent des œuvres protégées sans avoir toujours l’autorisation. Pour les auteurs, l’opt-out est une solution insuffisante.

Par Anne-Marie Pecoraro*, avocate associée, UGGC Avocats

L’utilisation de l’intelligence artificielle (IA) dans les domaines artistiques tend à révolutionner la manière dont nous analysons, créons et utilisons les œuvres cinématographiques, littéraires ou encore musicales. Si, dans un premier temps, on a pu y voir un moyen presque anecdotique de créer une œuvre à partir des souhaits d’un utilisateur ayant accès à une IA, elle inquiète désormais les artistes. Les algorithmes et les AI peuvent être des outils très efficaces, à condition qu’ils soient bien conçus et entraînés. Ils sont par conséquent très fortement dépendants des données qui leur sont fournies. On appelle ces données d’entraînement des « inputs », utilisées par les IA génératives pour créer des « outputs ».

Des œuvres utilisées comme inputs
Malgré ses promesses, l’IA représente cependant un danger pour les ayants droit, dont les œuvres sont intégrées comme données d’entraînement. A titre d’exemple, la version 3.5 de ChatGPT a été alimentée avec environ 45 téraoctets de données textuelles. On peut alors se poser la question de la protection des œuvres utilisées comme inputs : l’ayant droit peut-il s’opposer ? La législation a prévu un droit d’« opt-out », que peuvent exercer les auteurs pour s’opposer à l’utilisation de leurs œuvres par une IA. A travers le monde, l’IA est encore peu règlementée.
Aux Etats Unis, il n’existe pas encore de lois dédiées portant spécifiquement sur l’IA, mais de plus en plus de décisions font office de « guidelines ». Au sein de l’Union européenne (UE), l’utilisation croissante de l’IA, à des fins de plus en plus variées et stratégiques, a conduit à faire de son encadrement une priorité. En effet, dans le cadre de sa stratégie numérique, l’UE a mis en chantier l’ « AI Act », un projet de règlement (1) visant à encadrer « l’usage et la commercialisation des intelligences artificielles au sein de l’UE » qui a été voté le 14 juin 2023 par le Parlement européen (2). Son adoption est prévue pour fin 2023 ou début 2024, avec une mise application 18 à 24 mois après son entrée en vigueur.

Rapport « NFT » au CSPLA : jetons non-fongibles et propriété intellectuelle font-ils bon ménage ?

La question de la nature juridique des NFT n’est pas près d’être tranchée. Le rapport « Martin-Hot », remis au Conseil supérieur de la propriété littéraire et artistique (CSPLA), soulève les difficultés et fait des recommandations. Dommage que ni l’Arcom ni des magistrats n’aient été consultés. Par Véronique Dahan, avocate associée, et Jérémie Leroy-Ringuet, avocat, Joffe & Associés. Le Conseil supérieur de la propriété littéraire et artistique (CSPLA), instance consultative chargée de conseiller le ministère de la Culture, s’est vu remettre, le 12 juillet 2022, un rapport sur les jetons non-fongibles, ou NFT (1). L’objectif fixé à leurs auteurs – Jean Martin, président de mission, et Pauline Hot, la rapporteure – était de dresser un état des lieux et une analyse du phénomène du développement des NFT en matière littéraire et artistique. Nature juridique : question non tranchée Le rapport formule également vingt propositions destinées à informer les acteurs et à encadrer et sécuriser le marché, à un moment où les ventes de NFT connaissent un important reflux : près de 6 milliards de dollars de volume de ventes en janvier 2022 contre moins de 700 millions en juillet et même à peine 370 millions en août (2). Nous retenons de ce dense rapport de près de cent pages (3) la caractérisation d’une triple difficulté : celle de qualifier juridiquement les NFT, celle de les encadrer juridiquement, et celle de sanctionner des usages contrefaisants qu’ils occasionnent. La difficile qualification juridique et l’objectif pratique des NFT en matière de propriété littéraire et artistique. Le rapport part d’une constatation de la difficulté de définir les NFT, qualifiés d’« objets juridiques non identifié » (4). Il écarte toute une série de catégories juridiques : les NFT ne sont pas des œuvres d’art puisqu’ils sont le résultat de processus de codage automatisés et non le produit original de l’empreinte de la personnalité d’un auteur ; ils ne sont pas des supports d’œuvres d’art puisque, la plupart du temps, ils ne contiennent pas l’œuvre mais l’indexent ; ils ne sont ni des certificats d’authenticité ni des éléments de DRM (5) puisqu’ils peuvent porter sur des faux ou des contrefaçons ; enfin, ils ne sont pas des contrats, notamment du fait que les parties sont identifiées par des pseudonymes et que le langage de nature logicielle du NFT ne permet pas de s’assurer du consentement des parties sur le contenu du contrat. Le rapport finit par retenir plutôt la qualification, « souple », de « titre de droits sur un jeton mais aussi sur un fichier, dont l’objet, la nature, et l’étendue varie en fonction de la volonté de son émetteur exprimée par les choix techniques et éventuellement juridiques associés au smart contract ». Les NFT seraient donc assimilables à des biens meubles incorporels correspondant à des titres de propriété. Mais quand on sait que la doctrine n’est toujours pas d’accord sur la qualification d’un droit de marque (droit personnel ? droit mobilier incorporel, donc réel ? titre de propriété dont l’objet comprend les composantes traditionnelles d’usus, fructus et abusus ?), on peut imaginer que la question de la nature juridique du NFT n’est pas près d’être tranchée. Quoi qu’il en soit, le rapport liste une série d’usages actuels ou potentiels des NFT dans le secteur littéraire et artistique, qui compose un paysage assez complet. Ce que l’on peut résumer en disant que les NFT représentent de nouvelles opportunités économiques pour les ayants droit. Il peut s’agir tout d’abord de nouveaux usages monnayés : vente d’œuvres « natives » NFT, de copies numériques d’œuvres préexistantes, de prestations associées propres à créer ou renforcer des communautés de « fans », etc. Ces nouveaux usages monnayables pourraient particulièrement intéresser de nouveaux publics et donc de nouveaux consommateurs. Il peut ensuite s’agir de favoriser le financement de projets littéraires et artistiques : des NFT peuvent être offerts en contrepartie d’un apport à des financements participatifs de films, de publications, d’expositions, … Enfin, l’usage de NFT permet d’authentifier certains droits et de prévenir des usages contrefaisants, au moyen de smart contracts dont le rapport pointe toutefois les limites eu égard au formalisme requis, pour certains contrats, par le code de la propriété intellectuelle. Ainsi, les NFT pourraient être utilisés pour la billetterie de spectacles ou pour encadrer l’usage d’une œuvre sur laquelle des droits sont transférés. Auteur, titulaire de droits et plateforme Le rapport recommande donc d’effectuer un travail pédagogique auprès des différents acteurs pour encourager les usages vertueux des NFT, et à clarifier leur régime juridique par des voies normatives. Le difficile encadrement de l’usage des NFT. Créer un NFT revient soit à créer une œuvre native NFT, soit à créer la copie privée d’une œuvre acquise par le créateur du NFT. Dès lors, le rapport rappelle que ce n’est pas tant la création d’un NFT elle-même qui peut présenter un risque de non-respect des droits que l’inscription du NFT sur une plateforme spécialisée dans l’achat et la revente de NFT. En effet, le créateur du NFT ne peut l’inscrire sur cette plateforme que s’il est auteur ou titulaire des droits sur l’œuvre vers laquelle le NFT « pointe ». Or le rapport rappelle que 80 % des NFT actuellement en ligne sur la plateforme OpenSea, par exemple, sont des contrefaçons ou du spam. Ce qui représente d’ailleurs des risques pour les consommateurs potentiellement abusés. Les ayants droit en position de force ? Le rapport évoque bien sûr l’apport de la technologie blockchain sur la sécurisation de la chaîne des droits : les smart contracts liés aux NFT « pointant » vers des œuvres pourraient prévoir une « forme d’automatisation des royalties » qui, si elle ne mettra certainement pas fin aux litiges en la matière, placera les ayants droit en position de force. Le rapport analyse également en détail l’interaction potentielle du droit de suite avec les NFT. Selon le rapport, si les NFT permettent un paiement automatique des ayants droit identifiés dans le smart contract à l’occasion de chaque transfert de droits, il ne semble pas possible de tirer profit de cette technologie pour faire une application du « droit de suite » au sens de l’article L. 122-8 du code de la propriété intellectuelle. Et ce, en raison des critères spécifiques afférents à ce droit, notamment celui du transfert de propriété par un professionnel de la vente d’œuvres. Enfin, le rapport s’interroge sur la qualification d’atteinte au droit moral par l’inscription d’un NFT sans l’accord de l’auteur de l’œuvre vers laquelle « pointe » le NFT : si, par exemple, une œuvre musicale est reproduite sous forme de fichier mp3, fortement compressé, ou si elle est reproduite sans mention du nom du compositeur, l’atteinte devrait pouvoir être aisément caractérisée ; mais dans le cas contraire, il restera un débat sur la question de savoir si la « transformation » d’une œuvre en NFT peut constituer une violation du droit moral. Pour favoriser un écosystème vertueux du marché des NFT, le rapport propose l’élaboration de chartes de bonnes pratiques aux niveaux national et européen, ainsi que le développement d’outils d’observation du marché de nature à accroître la transparence sur les mouvements de fonds. L’encore incertaine sanction des usages de NFT contrefaisants. Un des apports les plus intéressants du rapport est son analyse du statut des plateformes de NFT et des sanctions qu’elles pourraient subir, notamment en raison de la grande présence de contrefaçon parmi les NFT hébergés. Selon le rapport, il n’est pas exclu que le régime des fournisseurs de services de partage de contenu en ligne s’applique à celles qui proposent l’achat et la vente de NFT, et donc que la responsabilité des plateformes soit engagée si elles ne retirent pas promptement les contenus contrefaisants, comme l’exige la loi « Confiance dans l’économique numérique » de 2004. On regrettera, à ce sujet, qu’aucune personne de l’Arcom (ex-CSA et Hadopi) n’ait été consultée par la mission. Il est regrettable aussi de ne pas avoir consulté des magistrats spécialisés en propriété intellectuelle pour anticiper l’appréciation par les tribunaux des NFT allégués de contrefaçon et de l’application de l’arsenal procédural anti-contrefaçon. Ainsi, les praticiens pourront s’interroger sur les conditions pratiques et juridiques de la récolte de preuves de contrefaçon par des NFT : quid de la possibilité de réaliser une saisie contrefaçon descriptive, par exemple ? Il conviendrait donc que les propositions d’informations et de réflexions prônées par le rapport visent également les juges. Nous sommes plus optimistes que le rapport sur la compétence des tribunaux français pour des atteintes à des droits d’auteur dont les titulaires sont français : les clauses attributives de juridiction des conditions générales de vente (CGV) et des conditions générales d’utilisation (CGU) des plateformes hébergeant les NFT contrefaisants ne seront pas opposables aux auteurs des œuvres contrefaites. Et la reconnaissance de plus en plus large du critère d’accessibilité en matière de contrefaçon en ligne devrait assurer la compétence des tribunaux nationaux pour des actes commis sur des sites accessibles depuis la France. Mais le rapport soulève une question intéressante : le « caractère immuable » de la blockchain semble rendre quasiment impossible la suppression définitive de NFT contrefaisants, sinon par une procédure de « brûlage » du NFT consistant à le rendre inaccessible et par un déréférencement de la copie contrefaisante de l’œuvre, liée au NFT. La technologie évoluera peut-être encore mais, en l’état, la difficulté à faire disparaître un NFT empêche le contrefacteur de faire disparaître les preuves de la contrefaçon tout en gênant l’exécution de décisions qui ordonneraient la suppression des NFT contrefaisants. Le « proof of stake » moins énergivore Enfin, on saluera les alertes et les propositions écologiques du rapport à propos de l’empreinte énergétique des NFT, encore mal définie mais que l’on peut comparer à celle du bitcoin, soit plusieurs dizaines de térawatts-heure (TWh) par an, c’est-à-dire la consommation électrique de pays entiers. La plupart des blockchains fonctionnent aujourd’hui sous des modèles de « preuve de travail » (proof of work) gourmandes en énergie. Or des modèles de « preuve de participation » (proof of stake) apparaissent, qui ne reposent pas sur la puissance de calcul des utilisateurs, mais sur leur participation à la crypto-monnaie. La blockchain Ethereum, très utilisée pour les NFT, est ainsi bien moins énergivore (6) depuis le 15 septembre 2022. @

Musique en ligne : 1 milliard de dollars de royalties impayées, premières restitutions en avril

Spotify, Apple Music, Amazon Music, Google/YouTube ou encore le français Deezer détiennent environ 1 milliard de royalties qu’elles n’ont encore pas versées aux auteurs de musiques « non-identifiées » ou d’origines étrangères inconnues. Ces sommes commencent enfin à être débloquées en avril.

(Depuis la publication de cet article dans le n°254 de Edition Multimédi@, le premier versement mensuel a porté sur 40 millions de dollars. Prochain paiement : mi-mai)