Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

La lourde responsabilité de la « Cnil » irlandaise

En fait. Le 23 avril, la présidente de la Cnil a annoncé sur Franceinfo qu’elle va « saisir de façon officielle la “Cnil” irlandaise [la DPC] sur les conditions de collecte et d’exploitation des données sur cette application TikTok Lite ». Ou comment son homologue de Dublin est devenue centrale en Europe.

En clair. Cela va faire six ans, le 25 mai prochain, que la Data Protection Commission (DPC) – la « Cnil » irlandaise – est devenue la cheffe de file attitrée dans l’Union européenne (UE) pour veiller au respect du règlement général sur la protection des données personnelles (RGPD) par les principaux géants du Net. C’est en effet le 25 mai 2018 que ce dernier est entré en vigueur dans les Vingt-sept (1).
Et pour cause : les Gafam (Google/YouTube, Apple, Meta/Facebook, Amazon et Microsoft/LinkedIn) ainsi que TikTok, Twitter, eBay, Airbnb, PayPal ou encore Netflix ont choisi d’installer leur siège européen en Irlande, la plupart dans la capitale irlandaise Dublin (2). Car ce petit pays membre de l’UE est l’un des mieux disant au monde en matière de fiscalité, tant en termes d’impôt sur les sociétés (12,5 % sur les bénéfices et même seulement 6,25 % sur les revenus des brevets) que de crédit d’impôt recherche et développement (R&D) pouvant aller jusqu’à 37,5 %. Résultat, faute d’harmonisation fiscale en Europe : les Big Tech, notamment américaines, se bousculent au portillon irlandais. En conséquence, depuis l’entrée en vigueur du RGPD, la Data Protection Commission (DPC) est devenue la « Cnil » européenne la plus sollicitée en matière de protection des données personnelles et de la vie privée.

Le Bureau européen de l’IA forme son bataillon

En fait. Le 27 mars à midi est la date limite pour se porter candidat à l’une des offres d’emploi du « Bureau de l’IA » (AI Office) créé au sein de la Commission européenne par l’AI Act dont la version finale sera soumise le 22 avril au vote du Parlement européen. Sont recrutés des techniciens et des administratifs.

En clair. « Postulez dès maintenant en tant que spécialiste technologique ou assistant administratif pour une occasion unique de façonner une IA digne de confiance. […] Le Bureau européen de l’IA jouera un rôle-clé dans la mise en œuvre du règlement sur l’intelligence artificielle – en particulier pour l’IA générale [ou AGI pour Artificial General Intelligence, aux capacités humaines, ndlr] – en favorisant le développement et l’utilisation d’une IA fiable, et la coopération internationale. […] La date limite de manifestation d’intérêt est le 27 mars 2024 à 12h00 CET », indique la Commission européenne (1).
Avant même l’adoption définitivement de l’AI Act (2) par le Parlement européen, prévue en séance plénière le 22 avril (pour entrer en vigueur l’été prochain), la DG Connect, alias DG Cnect (3), embauche déjà pour son Bureau de l’IA nouvellement créé. Les entretiens auront lieu à la fin du printemps et les prises de fonction à partir de l’automne 2024. Sont recherchés : chercheurs scientifiques, informaticiens, ingénieurs logiciels, data scientists ou encore spécialistes matériels, avec « une expérience technique avérée en IA » (marchine learning, deep learning, éthique et vie privée, cybersécurité, …).

Abonnements payants de Facebook et Instagram en Europe : Meta se heurte aux exigences du RGPD

Pour Instagram ou Facebook sans publicités, il en coûte désormais aux Européens 9,99 euros par mois sur le Web et même 12,99 euros sur application mobile. C’est cher payé pour ne plus être ciblé dans sa vie privée. Et le consentement « libre » des utilisateurs exigé par le RGPD est-il respecté ?

(Cet article juridique a été publié dans EM@ n°312 du 18 décembre 2023. Le 11 janvier 2024, l’organisation Noyb a annoncé avoir déposé plainte contre Meta)

La Quadrature du Net n’a pas réussi à « faire tomber » l’ex-Hadopi devant le juge européen

L’association de défense des libertés fondamentales La Quadrature du Net n’a pas convaincu l’avocat général de la Cour de Justice européenne (CJUE) que l’Hadopi – devenue, avec le CSA en 2022, l’Arcom – agissait illégalement dans le traitement des données personnelles pour la riposte graduée.

Comme la Cour de Justice de l’Union européenne (CJUE) suit souvent – à près de 80% selon les statistiques – les conclusions de son avocat général, il y a fort à parier que cela sera le cas dans l’affaire « La Quadrature du Net versus Hadopi ». En l’occurrence, le 28 septembre 2023, l’avocat général de la CJUE – le Polonais Maciej Szpunar (photo) – conclut que la conservation et l’accès à des données d’identité civile, couplées à l’adresse IP utilisée, devraient être permis lorsque ces données constituent le seul moyen d’investigation permettant l’identification d’auteurs d’infractions exclusivement constituées sur Internet.

15 ans de combat contre la loi Hadopi
La Quadrature du Net (LQDN) est donc en passe de perdre un combat qu’elle a engagé il y a quinze ans – contre la loi Hadopi et contre l’autorité administrative indépendante éponyme pratiquant la « réponse graduée » à l’encontre de pirates présumés sur Internet de musiques et de films ou d’autres contenus protégés par le droit d’auteur.
L’association française défenseuse des libertés fondamentales à l’ère du numérique était repartie à la charge contre l’Hadopi. Et ce, en saisissant en 2019 le Conseil d’Etat – avec FDN (1), FFDN (2) et Franciliens.net – pour demander l’abrogation d’un décret d’application de la loi « Hadopi » signé par le Premier ministre (François Fillon à l’époque), le ministre de la Culture (Frédéric Mitterrand) et la ministre de l’Economie (Christine Lagarde). Ce décret « Traitement automatisé de données à caractère personnel » (3) du 5 mars 2010 permet à l’ex-Haute autorité pour la diffusion des œuvres et la protection des droits sur Internet (Hadopi) – devenue l’Arcom (4) en janvier 2022 par fusion avec le CSA – de gérer un fichier « riposte graduée » constitué de données obtenues auprès des ayants-droits (les adresses IP) et des fournisseurs d’accès à Internet (l’identité civile).