Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

Vie privée : comment l’IA de Bercy traque les fraudeurs du fisc jusque sur les réseaux sociaux

Du 23 mai au 6 juin 2024, les Français doivent déclarer leur impôts (revenus, immobilier, …). C’est l’occasion pour Edition Multimédi@ de faire le point sur l’utilisation de l’intelligence artificielle (IA) par le gouvernement dans sa lutte contre la fraude fiscale — jusque sur les réseaux sociaux.

Le Premier ministre Gabriel Attal (photo de gauche) en avait fait son cheval de bataille lorsqu’il était encore ministre délégué chargé des Comptes publics : la lutte contre la fraude fiscale, sociale et douanière. Et depuis son entrée à Matignon le 9 janvier 2024, il continue de suivre de près cette traque aux fraudeurs que son successeur Thomas Cazenave (photo de droite) intensifie grâce à l’IA et aux réseaux sociaux. « Contre la fraude fiscale, je m’étais engagé à renforcer les moyens humains : 281 agents ont été recrutés l’an dernier, et 350 supplémentaires le seront en 2024 », avait assuré Gabriel Attal lors de la présentation le 20 mars dernier du plan de lutte contre les fraudes aux finances publiques (1).

Traque aux bâtis et piscines non déclarés
Le plus jeune Premier ministre de la Ve République (35 ans) a aussi garanti qu’« en 2027, nous aurons recruté [1.500 agents supplémentaires dédiés à la lutte contre la fraude fiscale], 1.000 agents sur la fraude sociale, formé 450 cyber enquêteurs, [redéployé 100 équivalents temps pleins sur le contrôle douanier du e-commerce],et investi plus de 1 milliard d’euros pour moderniser nos outils numériques de détection et de lutte contre les fraudes » (2). Le plan de lutte contre la fraude aux impôts se dote d’un Office national anti-fraude aux finances publiques (ONAF), dont la création a été actée par décret du 18 mars. Issu en fait de la transformation du service d’enquête judiciaire et fiscal (SEJF), ce « service à compétence nationale » est notamment chargé de « recueillir, centraliser et exploiter tout renseignement ou information entrant dans son domaine d’intervention à des fins stratégiques, opérationnelles ou documentaires » (3).
Ce bras armé de Bercy et de sa Direction générale des finances publiques (DGFiP) sera « pleinement opérationnel dès le 1er juillet » prochain pour mener des enquêtes et des poursuites judiciaires, le nombre d’officiers judiciaires devant doubler d’ici l’année prochaine à 80 agents.