Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

Conseil supérieur de la propriété littéraire et artistique, le CSPLA a vingt ans et veut étendre son influence

Méconnu du grand public, le CSPLA conseille – depuis l’année 2000 – le ministère de la Culture, dont il dépend, sur le droit d’auteur et les droits voisins à l’ère du numérique. Cette instance consultative atteint cette année les 100 membres et veut se faire entendre en Europe. Sa séance plénière du 15 décembre est la 40e !

Le Conseil supérieur de la propriété littéraire et artistique (CSPLA), présidé depuis deux ans par Olivier Japiot (photo), veut passer à la vitesse supérieure et étendre son influence, y compris au niveau européen. Evoluant dans l’ombre de la direction générale des médias et des industries culturelles (DGMIC) du ministère de la Culture, avec laquelle il occupe les locaux de l’immeuble des Bons enfants, rue Saint-Honoré à Paris (1), cette instance consultative sur le droit d’auteur et les droits voisins à l’ère de l’Internet entend donner un coup de projecteur sur ses travaux et rapports qui sont publiés à un rythme soutenu. Rien que pour sa prochaine séance plénière, la 40e, qui se tient ce 15 décembre, sont présentés pas moins de quatre rapports : celui sur les outils de reconnaissance des contenus et des œuvres sur Internet, au regard de la transposition de la directive européenne de 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique ; celui sur l’exception au droit d’auteur pour les fouilles de textes et de données, ou text and data mining, à des fins de recherche scientifique voire d’intelligence artificielle ; celui sur le contrat de commande rémunérant en droit d’auteur le temps de travail lié à l’activité créatrice des artistes auteurs ; celui enfin sur la preuve de l’originalité de l’oeuvre pour que celle-ci puisse bénéficier de la protection légale pendant la durée de son « monopole ».