Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

Création d’une œuvre ou d’une invention par une IA : la justice commence à faire bouger les lignes

C’est un peu le paradoxe de l’oeuf et de la poule : qui est apparu le premier ? Dans le cas d’une création ou d’une invention par une intelligence artificielle, qui est l’auteur : la personne humaine ou la technologie créatrice ? Cette question existentielle commence à trouver des réponses, en justice.

Par Boriana Guimberteau (photo), avocatE associéE, cabinet Stephenson Harwood

L’intelligence artificielle (IA) fait l’objet de développements exponentiels dans des domaines aussi variés que les voitures autonomes (et les données générées par celle-ci), la rédaction d’articles ou la création de musiques. Au-delà de la compréhension de son fonctionnement, l’intelligence artificielle soulève la question de la paternité et de la titularité des œuvres créées ou des inventions générées par elle.

Vers un « Artificial Intelligence Act »
Avant d’explorer plus en amont cette question, il convient de fournir une définition de l’intelligence artificielle. Selon l’Organisation mondiale de la propriété intellectuelle (OMPI), l’intelligence artificielle désigne une branche de l’informatique qui a pour objet de concevoir des machines et des systèmes à même d’accomplir des tâches faisant appel à l’intelligence humaine, avec un intervention humaine limitée ou nulle. Cette notion équivaut généralement à l’intelligence artificielle spécialisée, c’est-à-dire aux techniques et applications programmées pour exécuter des tâches individuelles. L’apprentissage automatique (machine learning) et l’apprentissage profond (deep learning) font tous deux parties des applications de l’intelligence artificielle (1).
L’IA peut ainsi produire différents résultats dont certains pourraient être qualifiés de créations ou d’inventions, les premières protégeables par le droit d’auteur et les secondes par le droit des brevets d’invention. La question est alors de savoir qui sera titulaire des créations ou des inventions générées par l’IA, et si l’IA pourrait être qualifiée d’auteur ou d’inventeur par le droit positif français.
En matière de droit d’auteur tout d’abord, de nombreux auteurs se sont penchés sur la question de savoir si l’intelligence artificielle pouvait bénéficier de la qualité d’auteur. La majorité d’entre eux reconnaissent la conception personnaliste et humaniste du droit français qui considère comme auteur la personne qui crée une œuvre. Par définition, un fait créatif est un fait matériellement imputable à une personne humaine. Cette conception s’impose également par le seul critère d’admission à la protection des œuvres de l’esprit qu’est l’originalité, laquelle se caractérise par l’empreinte de la personnalité de l’auteur (2). Eu égard à la personne de l’auteur, le professeur Christophe Caron a pu affirmer que « le duo formé par la notion de création et de personne physique est indissociable » et donc que « le créateur est forcément une personne physique ». Si la définition de l’auteur est absente du code de propriété intellectuelle (CPI), on y retrouve néanmoins diverses références : « Est dite de collaboration l’œuvre à la création de laquelle ont concouru plusieurs personnes physiques » (3) ; « Ont la qualité d’auteur d’une œuvre audiovisuelle la ou les personnes physiques qui réalisent la création intellectuelle de cette œuvre » (4). Dans le cadre de l’œuvre radiophonique, « ont la qualité d’auteur d’une œuvre radiophonique la ou les personnes physiques qui assurent la création intellectuelle de cette œuvre » (5). La seule exception à la naissance ab initio du droit d’auteur sur la tête d’une personne physique : l’œuvre collective (6).
De plus, la nécessité d’une intervention consciente de l’homme implique qu’un animal ou une machine ne peuvent être considérés comme auteurs. L’intelligence artificielle ne peut alors être qu’un outil de création supplémentaire.