Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

La France revoit sa stratégie numérique culturelle

En fait. Le 11 juin, le ministère de la Culture a publié le bilan complet de sa démarche de « stratégie numérique culturelle » qui a duré deux ans (consultation publique et groupes de travail). Son « service du numérique » a identifié les défis à relever et un plan d’action alliant culture et numérique.

En clair. Le ministère de la Culture, passé en janvier 2024 sous la coupe de Rachida Dati (1), cherche à mettre en œuvre une nouvelle « politique culturelle » en tenant compte de l’« explosion des pratiques numériques », de la « transformation des formes de création », du « bouleversement des circuits de distribution », de la « modification des modèles économiques » ou encore des « difficultés à assurer un partage équitable de la valeur ». Par exemple, « les débats actuels autour des NFT, des technologies immersives et de l’intelligence artificielle montrent à quel point les nouveaux usages numériques interrogent ». C’est dans cet esprit que le rapport de la rue de Valois sur la « stratégie numérique culturelle » à mettre en œuvre a été publié le 13 juin dernier.
Ce document de 32 pages (2) assorti de huit fiches (3) pour un « plan d’actions » à mener (ou à poursuivre) d’ici fin 2024 et courant 2025, voire en 2026, a été élaboré durant deux ans par le « service numérique » (SNum) du ministère de la Culture. Ce SNum a été créé par un arrêté du 31 décembre 2020 (4) et, opérationnel depuis début 2021, est dirigé par depuis lors par Romain Delassus. En tant que « chef du SNum », il a tenu à souligner que « loin de vouloir construire un jardin à la française, ou de se positionner en donneur d’ordre vis-à-vis de l’écosystème culturel, l’objectif de cette démarche est au contraire de responsabiliser et d’aider chaque équipe et chaque établissement dans la construction de sa propre stratégie numérique ».

L’ex-secrétaire d’Etat au Numérique Cédric O fait toujours polémique avec son « Mistral gagnant »

Le lobbying dans l’IA de l’ancien secrétaire d’Etat au Numérique, Cédric O, continue de faire polémique sur fond de soupçons de conflits d’intérêts. La Haute autorité pour la transparence de la vie publique (HATVP) avait exprimé des réserves en juin 2022. Et depuis ?

(Le 11 juin 2024, soit le jour suivant la publication de cet article dans le n°323 de Edition Multimédi@, Mistral AI annonçait une levée de fonds de 600 millions d’euros, et, le 17 juillet, la HATVP nous a indiqué qu’elle venait de « procéder au contrôle du respect des réserves » formulées en 2022 et qu’ « aucun élément ne permet de conclure que ces réserves auraient été méconnues », mais aucune communication officielle n’est prévue)

Cédric O, cofondateur et actionnaire de la start-up Mistral AI via sa propre société de conseil Neopunteo, estil juge et partie – voire en conflits d’intérêts – vis-à-vis du gouvernement dont il fut secrétaire d’Etat au Numérique (mars 2019 à mai 2022) ? La question est lancinante mais légitime puisque cela concerne l’ancien secrétaire d’Etat au Numérique. Contactée par Edition Multimédi@, la Haute autorité pour la transparence de la vie publique (HATVP), présidée par Didier Migaud, nous a assuré qu’elle s’était bien prononcée dans sa délibération du 14 juin 2022 sur la demande que lui avait soumise Cédric O (photo) concernant notamment sa société Neopunteo.

Neopunteo, société de conseil au bras long
« Cédric O a créé le 11 juillet 2022 Neopunteo, qui a notamment pour objet social la prise de participation, directe ou indirecte, dans toutes opérations financières, immobilières ou mobilières ou entreprises commerciales ou industrielles pouvant se rattacher à l’objet social, notamment par voie de création de sociétés nouvelles, le tout directement ou indirectement, pour son compte ou pour le compte de tiers », nous a précisé un porte-parole de la HATVP. Et celui-ci de nous confirmer en outre : « C’est la société Neopunteo qui a souscrit des parts au capital de la société Mistral AI ». C’est ainsi que l’ancien secrétaire d’Etat au Numérique a pu affirmer auprès de l’AFP en décembre dernier qu’« [il] respect[ait] toutes les obligations demandées par la HATVP ». Cédric O a investi dans la start-up Mistral AI, créée le 28 avril 2023, dont il est coactionnaire et « conseiller-cofondateur » via sa société Nopeunteo qui était encore à l’état de projet au moment du rendu de l’avis contraignant du gendarme de la transparence de la vie publique.
Comme Cédric O a occupé ses fonctions ministérielles du 31 mars 2019 au 20 mai 2022, il avait en effet l’obligation – dans les trois ans suivant la cessation de ses fonctions à Bercy, soit jusqu’en mai 2025 – de saisir la HATVP avant de s’engager professionnellement. La haute autorité se prononce sur la compatibilité ou pas de l’exercice d’une activité rémunérée au sein d’une entreprise avec les fonctions de membre du gouvernement exercées au cours des trois années précédant le début de l’activité. Objectif : éviter le risque de prise illégale d’intérêts, laquelle relève d’une infraction pénale passible de trois ans d’emprisonnement et d’une amende de 200.000 euros. Il s’agit aussi de lutter contre tout conflit d’intérêt et d’édicter éventuellement des mesures à respecter pour prévenir les risques déontologiques. Depuis que Cédric O a quitté Bercy, la HATVP a publié quatre délibérations le concernant. La première délibération est celle datée de juin 2022 et concerne France Asie et Sista, ainsi que le projet de « créer une entreprise afin de réaliser des prestations de conseil » (1), Nopeunteo. Dans ses « réserves », la haute autorité a demandé à Cédric O de « respecter les règles déontologiques », de ne pas « faire usage ou de divulguer des documents ou renseignements non publics dont il aurait eu connaissance », et lui « suggère » de la saisir « avant de prendre pour client un organisme ou de prendre une participation dans une entreprise appartenant au secteur du numérique ».

Fondé il y a 50 ans, le fabricant high-tech taïwanais Foxconn devient de plus en plus « intelligent »

Vous pensiez que le fabricant taïwanais Foxconn, célèbre fournisseur d’Apple pour ses iPhone, était tout juste bon à assembler des smartphones. Erreur : Hon Hai Precision Industry – son vrai nom – est devenu en 50 ans une Big Tech mondiale misant elle aussi sur l’intelligence artificielle.

(Le 5 juin, Hon Hai a annoncé une hausse de 22 % sur un an de son chiffre d’affaires en mai 2024)

1974-2024. Lorsque Terry Gou (photo) a créé Hon Hai Precision Industry Co, il y a 50 ans à Taïpei, capitale de Taïwan, il n’imaginait pas que son entreprise de fabrication de connecteurs électriques pour composants informatiques allait devenir le premier sous-traitant mondial dans la fabrication d’appareils électroniques grand public et le seul fabricant mondial – du moins jusqu’en 2012 – d’iPhone, d’iPad et d’iPod Touch pour le compte d’Apple, dont il est toujours le principal fournisseur.

Puces, serveurs IA, véhicules électriques, …
Mais la marque à la pomme n’est pas la seule à se faire fabriquer chez Foxconn – surnom de Hon Hai issu de sa première marque emblématique : il y a aussi Dell, HewlettPackard, IBM, Microsoft ou encore Cisco, du côté des Etats-Unis, ainsi que Huawei, Lenovo, Nintendo, Sony, Toshiba ou encore Xiaomi, du côté de l’Asie, auxquels il faut ajouter le finlandais HDM qui fait fabriquer pour la marque Nokia. Mais au-delà de son activité historique de sous-traitant arrivée à maturité, Hon Hai a su se diversifier : dans les véhicules électriques (1), l’IA (notamment dans les serveurs de calcul haute performance pour IA générative), les semiconducteurs, la robotique et les satellites en orbite basse, en faisant jouer à plein son savoir-faire d’un demi-siècle dans les composants, les modules, l’assemblage de système, les circuits intégrés, et les logiciels. Sans oublier la fabrication de téléviseurs depuis 2012 avec l’électronicien japonais Sharp, dont Hon Hai détient 34,1 % du capital après une prise de contrôle en 2016.
Résultat : en 2023, le groupe Hon Hai a dégagé un bénéfice net de 4,6 milliards d’euros (2) en réalisant un chiffre d’affaires de 199,7 milliards d’euros (3). Malgré une légère baisse de ces revenus annuels de -7 %, il s’agit tout de même du second record historique. Le PDG actuel, Young Liu, qui a succédé au fondateur Terry Gou (73 ans) le 1er juillet 2019, a revu en mars dernier ses prévisions 2024. Au lieu d’une « perspective neutre » pour cette année envisagée en novembre dernier lors de la précédente conférence des investisseurs, il s’attend maintenant à une « croissance significative ». A l’occasion de l’annonce le 15 mai dernier d’un accord avec l’allemand Siemens autour de « l’usine du futur », Young Liu s’est montré enthousiaste pour l’avenir de Hon Hai : « Foxconn se transforme en un fournisseur de solutions de plateforme pour la fabrication intelligente, les véhicules électriques intelligents et les villes intelligentes » (4). La robotisation et les jumeaux numériques font partie intégrante de la fabrication, tout comme désormais l’intelligence artificielle. La croissance de Foxconn sera aussi portée par ses puissants serveurs d’IA et ses composants pour centres de données d’IA (5) capables de répondre à la forte demande due à l’explosion des IA générative. « Dans ce segment, a indiqué le PDG de Hon Hai, la croissance annuelle des modules GPU [processeurs graphiques forts en calcul, ndlr] doublera cette année, tandis que le chiffre d’affaires du secteur des serveurs IA devrait dépasser 40 % sur un an et représenter plus de 40 % de l’ensemble des activités de serveurs » (6). Même Sharp déficitaire, lourdement déprécié dans les comptes de Hon Hai, pourrait rebondir avec l’IA.

Les médias en ligne redoutent la transformation du moteur de recherche Google en IA générative

Plus de 25 ans après sa création par Larry Page et Sergey Brin, le moteur de recherche en quasi-monopole fait sa mue pour devenir une IA générative qui aura réponse à tout. Les sites web de presse pourraient être les victimes collatérales en termes d’audience. Le chat-search présentera moins de liens.

(après que des internautes aient signalé des résultats erronés générés par « AI Overviews », Google a annoncé le 30 mai des mesures correctrices, y compris en améliorant ses algorithmes) 

Google est mort, vive Google ! Mais cet enthousiasme ne sera sans doute pas partagé par les sites de médias en ligne qui tirent jusqu’à maintenant une part importante de leurs audiences de la consultation massive du moteur de recherche Google, lorsque ce n’est pas de son agrégateur d’actualités Google News. Depuis que Sundar Pichai, le PDG d’Alphabet, maison mère de Google, a annoncé le 14 mai – lors du Google I/O 2024 (1) – la plus grande transformation du numéro un mondial du search en un moteur d’IA générative, les éditeurs de presse en ligne s’inquiètent pour la fréquentation de leurs sites Internet. L’objet de leurs craintes s’appelle « AI Overviews », la fonctionnalité la plus « intelligente » et disruptive jamais introduite dans Google depuis son lancement il y a un quart de siècle (2). La page de résultats de recherche ne sera plus présentée de la même manière : fini la liste impersonnelle de liens donnant accès à des sites web censés répondre, après avoir cliqué, à vos requêtes courtes et souvent par mots-clés ; place à une réponse détaillée et intelligible développée par l’IA générative elle-même, en fonction de ce que vous lui avez demandé en langage naturel, avec quelques liens seulement triés sur le volet en guise de sources venant étayer la réponse et/ou le raisonnement.

Avec « AI Overviews », moins besoin de cliquer
Cette combinaison de l’IA générative et de l’IA multimodale fait passer Google de l’ère du « moteur » (search) à celle d’« assistant » (chatbot). Le nouveau Google « intelligent » a commencé à être déployé aux Etats-Unis depuis mi-mai, et d’autres pays dans le monde suivront pour atteindre 1 milliard d’utilisateurs d’ici la fin de l’année. L’IA générative de Google, appelée Gemini, vous mâche le travail sans que vous ayez forcément besoin d’aller cliquer sur les liens relégués au second plan. « Maintenant, avec l’IA générative, le moteur de recherche peut faire plus que vous ne l’imaginez. Vous pouvez donc demander ce que vous avez en tête ou ce que vous devez faire – de la recherche à la planification en passant par le brainstorming – et Google s’occupera des démarches », a expliqué Elizabeth Reid, alias Liz Reid (photo), vice-présidente de Google, responsable du moteur de recherche. Cliquer sur des liens devient une option, tant la réponse « AI Overviews » (« Aperçus de l’IA » en français) peut s’évérer satisfaisante.