Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

L’industrie du livre est appelée à mieux rémunérer les auteurs à l’ère du numérique et de l’IA

Le Syndicat national de l’édition (SNE) a tenu le 27 juin 2024 son assemblée générale annuelle. L’industrie du livre dans les Vingt-sept, dont la France, va passer sous les fourches caudines de la Commission européenne qui a lancé – via sa DG Connect – une enquête sur les contrats d’auteur.

Ce n’est pas anodin à l’ère du numérique et en pleine déferlante de l’intelligence artificielle : la DG Connect – direction générale des réseaux de communication, du contenu et de la technologie de la Commission européenne – a lancé jusqu’au 21 juin une « enquête sur les pratiques contractuelles touchant le transfert du droit d’auteur et des droits voisins ». Si cette démarche porte sur le secteur de la création et de la culture en général au regard des artistes, elle concerne en particulier les maisons d’édition et leurs contrats avec les auteurs.

Papier, ebook, audio, streaming, IA, …
Cette enquête menée en ligne (1) s’est adressée d’abord directement aux auteurs et aux artistes des industries culturelles et créatives en Europe. Mais leurs organisations professionnelles et représentatives (2) ont pu y répondre aussi. L’objectif de cette étude est notamment de « recueillir des données et des preuves concernant les arrangements contractuels liés au transfert du droit d’auteur ou des droits voisins, et évaluer leurs effets, en particulier sur la capacité des créateurs à recevoir une rémunération équitable et la capacité des producteurs à utiliser efficacement leurs droits à long termes ». Les contrats d’édition posent problèmes et le partage de la valeur entre les éditeurs de livres et les auteurs laisse à désirer. A l’occasion du troisième anniversaire de l’entrée en vigueur de la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » de 2019, le Conseil des écrivains européens – European Writers’ Council (EWC) basé à Bruxelles – a publié début juin un rapport sur « les clauses contractuelles dans les accords d’édition dans le secteur du livre européen » (3).

Divisée face aux Gafam, la presse française ne favorise pas la transparence sur les droits voisins

Carine Fouteau, nouvelle présidente et directrice de la publication Mediapart, pointe la non transparence de Google sur les sommes dues au titre des droits voisins de la presse. Mais elle s’en prend aussi « aux médias qui ont fait le choix du chacun pour soi en signant des accord individuels ».

C’est le premier coup de gueule de Carine Fouteau (photo), cette journaliste qui a succédé en mars 2024 à Edwy Plenel à la présidence de la Société éditrice de Mediapart. La nouvelle directrice de la publication de Mediapart a dénoncé fin avril « l’opacité des Gafam » en général et « l’absence de transparence » de Google en particulier. Le média d’investigation reproche notamment « les clauses de confidentialité imposées par Google » dans le cadre de l’accord que ce dernier a signé en octobre 2023 avec la Société des droits voisins de la presse (DVP).

L’Autorité de la concurrence a déjà sévi
Ce premier « accord majeur » de la Société DVP avec Google porte sur l’exploitation des contenus de presse par Google Actualités, Google Search et Google Discover sur la période allant d’octobre 2019 à décembre 2022. Le montant total ainsi collecté – pour le compte des 305 éditeurs (dont Edition Multimédi@) et agences de presse membres de cet organisme de gestion collective – n’a pas été divulgué. Et pour cause, Google impose à la Société DVP des clauses de confidentialité qui l’empêche de publier l’enveloppe globale obtenue dans le cadre de cet accord contractuel. La nouvelle patronne de Mediapart (1), dont la société éditrice est membre du conseil d’administration de la Société DVP, pointe ce défaut de transparence. Les sommes correspondantes à cette première période ont été versées en mars aux éditeurs membres, tandis que le média fondé par Edwy Plenel a décidé de ne pas encaisser la « substantielle somme » lui revenant. « La rétribution ne retourne pour autant pas à l’envoyeur (Google) : elle reste en réserve dans l’organisme de gestion collective, en attendant que le voile sur les chiffres soit levé », a précisé Carine Fouteau sur le site d’investigation.

Tout en restant hyperlocal face aux GAFAM, Ouest-France veut devenir un média national

Toujours premier quotidien papier en France, Ouest-France – qui fêtera ses 80 ans l’an prochain – est aussi la première plateforme numérique média. Son indépendance est assurée depuis 33 ans, mais ses défis à relever se multiplient : maintenir sa rentabilité, se développer au niveau national, faire face aux GAFAM et à l’IA.

« On est confronté à la pression du marché. Après les GAFAM qui se sont mis dans notre nid par la stratégie du coucou, il y a l’IA. Comment tracer [identifier, ndlr] ce qui est produit par de l’intelligence artificielle ? Comment relever le défi du droit d’auteur qui va être un chantier majeur. Il y a aussi un défi de la vitesse : l’IA va accélérer la machine. Avec les réseaux sociaux, on a eu une industrialisation de la distribution. Avec l’IA, on va avoir une industrialisation des contenus », a expliqué David Guiraud (photo) devant l’Association des journalistes médias (AJM) le 5 octobre dernier à Paris. Depuis près de dix ans, il est président du conseil de surveillance de la société Ouest-France, et a été élu en 2020 président de l’Association pour le soutien des principes de la démocratie humaniste (ASPDH), laquelle contrôle la holding Sipa (Société d’investissements participations) – communément appelée Sipa Ouest-France. « On se retrouve déjà avec un flot de contenus et face à une concurrence énorme. Par exemple, le projet “Autonews” (1) propose avec de l’IA de générer rapidement un journal sur mesure selon différentes options (actualités, tons d’écritures, images, …). Le risque est que l’on soit pris dans cet sorte de tsunami qui nous empêche de faire notre travail », s’inquiète celui qui a dirigé les groupes Le Monde (2008-2011) et Les Echos (1994-2008).

L’ASPDH, l’antidote aux « médias anti-sociaux »
David Guiraud (68 ans) va même plus loin dans son diagnostic : « La tension est très forte dans notre métier face à ce que j’appelle les médias anti-sociaux que sont les plateformes – Facebook et autres – qui créent cette dépendance addictive et qui ont hacké le cerveau des gens. Faut lire l’”Apocalypse cognitive” (2) : on comprend ce qui se passe ; c’est ça le sujet. A l’ASPDH, on réfléchit à comment continuer à faire un journal profitable, de qualité, face à ce monde là ».

La Société des droits voisins de la presse (DVP) peine à négocier avec les plateformes numériques

Créée il y a près de deux ans et épaulée par la Sacem et le CFC, la Société des droits voisins de la presse (DVP) – présidée par Jean-Marie Cavada – négocie difficilement avec une dizaine de plateformes numériques, dont Google, Meta, Microsoft, Twitter, LinkedIn ou Onclusive (ex-Kantar Media).

(Cet article a été publié dans EM@ n°304 du 24 juillet. Le 2 août, après d’autres médias, l’AFP a saisi la justice contre Twitter, rebaptisé X, pour refus de négocier)

Depuis sa création fin octobre 2021, il y a près de deux ans, la société de gestion collective des droits voisins de la presse DVP (dont la dénomination est Société des droits voisins de la presse) reste assez discrète sur l’état d’avancement de ses négociations avec une dizaine de grandes plateformes numériques. Il s’agit de tenter de trouver des accords de rémunération de la presse lorsque des articles en ligne sont exploités par ces plateformes. A ce jour, la Société DVP représente – au titre des droits voisins de la presse – 238 éditeurs et 46 agences de presse, soit plus de 624 publications de presse.

4 ans après la loi du 24 juillet 2019…
La Société DVP, présidée par Jean-Marie Cavada (photo), a en fait confié les négociations à deux organismes reconnus : la Sacem (1) pour les plateforme numériques dites B2C (orientées consommateurs) telles que Google, Meta, Microsoft, LinkedIn ou encore Twitter ; le CFC (2) pour les plateformes numériques dites B2B (orientées vers les entreprises et professionnels) telles que les prestataires de veille média comme Onclusive (ex-Kantar Media), Cision (ex- L’Argus de la presse) ou encore des crawlers (spécialistes scannant le Web pour leurs clients). La Sacem assure en outre la gestion de la société DVP, dont la directrice générale gérante est Caroline Bonin, la directrice juridique de la Sacem. Les négociations pour obtenir « une juste rémunération », et d’en obtenir le paiement, ont commencé à partir du printemps 2022, mais rien n’a filtré jusqu’à maintenant – les négociations avant tout accord d’autorisation étant soumises à une stricte règle de confidentialité.
« Une dizaine de négociations sont ainsi en cours, à des stades variés, notamment en raison de discussions juridiques complexes sur l’éligibilité au droit voisin de la presse de certaines publications, que les redevables du droit voisin contestent pour diminuer le montant de la rémunération à acquitter et que DVP défend, en application de la loi et dans l’esprit de la gestion collective », a signalé le 31 mai dernier la Société DVP à ses éditeurs membres (parmi lesquels Edition Multimédi@). Certaines négociations ont fait l’objet de plusieurs projets de contrats et offres financières, mais aucune n’a abouti à ce stade malgré des réunions hebdomadaires avec les plus importants acteurs du Net.