Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

L’ex-secrétaire d’Etat au Numérique Cédric O fait toujours polémique avec son « Mistral gagnant »

Le lobbying dans l’IA de l’ancien secrétaire d’Etat au Numérique, Cédric O, continue de faire polémique sur fond de soupçons de conflits d’intérêts. La Haute autorité pour la transparence de la vie publique (HATVP) avait exprimé des réserves en juin 2022. Et depuis ?

(Le 11 juin 2024, soit le jour suivant la publication de cet article dans le n°323 de Edition Multimédi@, Mistral AI annonçait une levée de fonds de 600 millions d’euros, et, le 17 juillet, la HATVP nous a indiqué qu’elle venait de « procéder au contrôle du respect des réserves » formulées en 2022 et qu’ « aucun élément ne permet de conclure que ces réserves auraient été méconnues », mais aucune communication officielle n’est prévue)

Cédric O, cofondateur et actionnaire de la start-up Mistral AI via sa propre société de conseil Neopunteo, estil juge et partie – voire en conflits d’intérêts – vis-à-vis du gouvernement dont il fut secrétaire d’Etat au Numérique (mars 2019 à mai 2022) ? La question est lancinante mais légitime puisque cela concerne l’ancien secrétaire d’Etat au Numérique. Contactée par Edition Multimédi@, la Haute autorité pour la transparence de la vie publique (HATVP), présidée par Didier Migaud, nous a assuré qu’elle s’était bien prononcée dans sa délibération du 14 juin 2022 sur la demande que lui avait soumise Cédric O (photo) concernant notamment sa société Neopunteo.

Neopunteo, société de conseil au bras long
« Cédric O a créé le 11 juillet 2022 Neopunteo, qui a notamment pour objet social la prise de participation, directe ou indirecte, dans toutes opérations financières, immobilières ou mobilières ou entreprises commerciales ou industrielles pouvant se rattacher à l’objet social, notamment par voie de création de sociétés nouvelles, le tout directement ou indirectement, pour son compte ou pour le compte de tiers », nous a précisé un porte-parole de la HATVP. Et celui-ci de nous confirmer en outre : « C’est la société Neopunteo qui a souscrit des parts au capital de la société Mistral AI ». C’est ainsi que l’ancien secrétaire d’Etat au Numérique a pu affirmer auprès de l’AFP en décembre dernier qu’« [il] respect[ait] toutes les obligations demandées par la HATVP ». Cédric O a investi dans la start-up Mistral AI, créée le 28 avril 2023, dont il est coactionnaire et « conseiller-cofondateur » via sa société Nopeunteo qui était encore à l’état de projet au moment du rendu de l’avis contraignant du gendarme de la transparence de la vie publique.
Comme Cédric O a occupé ses fonctions ministérielles du 31 mars 2019 au 20 mai 2022, il avait en effet l’obligation – dans les trois ans suivant la cessation de ses fonctions à Bercy, soit jusqu’en mai 2025 – de saisir la HATVP avant de s’engager professionnellement. La haute autorité se prononce sur la compatibilité ou pas de l’exercice d’une activité rémunérée au sein d’une entreprise avec les fonctions de membre du gouvernement exercées au cours des trois années précédant le début de l’activité. Objectif : éviter le risque de prise illégale d’intérêts, laquelle relève d’une infraction pénale passible de trois ans d’emprisonnement et d’une amende de 200.000 euros. Il s’agit aussi de lutter contre tout conflit d’intérêt et d’édicter éventuellement des mesures à respecter pour prévenir les risques déontologiques. Depuis que Cédric O a quitté Bercy, la HATVP a publié quatre délibérations le concernant. La première délibération est celle datée de juin 2022 et concerne France Asie et Sista, ainsi que le projet de « créer une entreprise afin de réaliser des prestations de conseil » (1), Nopeunteo. Dans ses « réserves », la haute autorité a demandé à Cédric O de « respecter les règles déontologiques », de ne pas « faire usage ou de divulguer des documents ou renseignements non publics dont il aurait eu connaissance », et lui « suggère » de la saisir « avant de prendre pour client un organisme ou de prendre une participation dans une entreprise appartenant au secteur du numérique ».

Les médias en ligne redoutent la transformation du moteur de recherche Google en IA générative

Plus de 25 ans après sa création par Larry Page et Sergey Brin, le moteur de recherche en quasi-monopole fait sa mue pour devenir une IA générative qui aura réponse à tout. Les sites web de presse pourraient être les victimes collatérales en termes d’audience. Le chat-search présentera moins de liens.

(après que des internautes aient signalé des résultats erronés générés par « AI Overviews », Google a annoncé le 30 mai des mesures correctrices, y compris en améliorant ses algorithmes) 

Google est mort, vive Google ! Mais cet enthousiasme ne sera sans doute pas partagé par les sites de médias en ligne qui tirent jusqu’à maintenant une part importante de leurs audiences de la consultation massive du moteur de recherche Google, lorsque ce n’est pas de son agrégateur d’actualités Google News. Depuis que Sundar Pichai, le PDG d’Alphabet, maison mère de Google, a annoncé le 14 mai – lors du Google I/O 2024 (1) – la plus grande transformation du numéro un mondial du search en un moteur d’IA générative, les éditeurs de presse en ligne s’inquiètent pour la fréquentation de leurs sites Internet. L’objet de leurs craintes s’appelle « AI Overviews », la fonctionnalité la plus « intelligente » et disruptive jamais introduite dans Google depuis son lancement il y a un quart de siècle (2). La page de résultats de recherche ne sera plus présentée de la même manière : fini la liste impersonnelle de liens donnant accès à des sites web censés répondre, après avoir cliqué, à vos requêtes courtes et souvent par mots-clés ; place à une réponse détaillée et intelligible développée par l’IA générative elle-même, en fonction de ce que vous lui avez demandé en langage naturel, avec quelques liens seulement triés sur le volet en guise de sources venant étayer la réponse et/ou le raisonnement.

Avec « AI Overviews », moins besoin de cliquer
Cette combinaison de l’IA générative et de l’IA multimodale fait passer Google de l’ère du « moteur » (search) à celle d’« assistant » (chatbot). Le nouveau Google « intelligent » a commencé à être déployé aux Etats-Unis depuis mi-mai, et d’autres pays dans le monde suivront pour atteindre 1 milliard d’utilisateurs d’ici la fin de l’année. L’IA générative de Google, appelée Gemini, vous mâche le travail sans que vous ayez forcément besoin d’aller cliquer sur les liens relégués au second plan. « Maintenant, avec l’IA générative, le moteur de recherche peut faire plus que vous ne l’imaginez. Vous pouvez donc demander ce que vous avez en tête ou ce que vous devez faire – de la recherche à la planification en passant par le brainstorming – et Google s’occupera des démarches », a expliqué Elizabeth Reid, alias Liz Reid (photo), vice-présidente de Google, responsable du moteur de recherche. Cliquer sur des liens devient une option, tant la réponse « AI Overviews » (« Aperçus de l’IA » en français) peut s’évérer satisfaisante.

Le Monde en France, El País en Espagne, Die Welt en Allemagne : OpenAI séduit la presse au cas par cas

OpenAI a réussi à convaincre de grands titres de presse en Europe – Le Monde, El País et Die Welt – et, aux Etats-Unis, l’agence de presse AP et l’American Journalism Project pour que son IA générative ChatGPT soit plus au fait de l’actualité dans des langues différentes. Le New York Times, lui, a préféré un procès.

Le directeur des opérations d’OpenAI, Brad Lightcap (photo), n’est pas peu fier d’avoir décroché des accords pluriannuels avec les grands quotidiens européens Le Monde en France, El País en Espagne et Die Welt en Allemagne. « En partenariat avec Le Monde et Prisa Media [éditeur d’El País], notre objectif est de permettre aux utilisateurs de ChatGPT du monde entier de se connecter à l’actualité de façon interactive et pertinente », s’est-il félicité le 13 mars dernier lors de l’annonce des deux accords noués pour plusieurs années avec respectivement le groupe français Le Monde pour son quotidien éponyme et le groupe espagnol Prisa Media pour son quotidien El País, de même que pour son quotidien économique et financier Cinco Días et son site d’actualités El Huffpost (1). Trois mois auparavant, ce même Brad Lightcap annonçait un premier partenariat avec le groupe allemand Axel Springer pour son quotidien Die Welt, et son tabloïd Bild, ainsi que pour ses sites d’information Politico (édition européenne) et Business Insider (économie et finances). « Ce partenariat avec Axel Springer aidera à offrir aux gens de nouvelles façons d’accéder à du contenu de qualité, en temps réel, grâce à nos outils d’IA. Nous sommes profondément engagés à nous assurer que les éditeurs et les créateurs du monde entier bénéficient de la technologie avancée de l’IA et de nouveaux modèles de revenus », avait alors assuré le directeur des opérations d’OpenAI (2).

ChatGPT, polyglotte et informé : merci la presse
Ces « partenariats mondiaux d’information » permettent à ChatGPT d’européaniser un peu plus ses capacités d’informer en mettant à contribution trois premiers quotidiens du Vieux Continent, de trois langues différentes (français, espagnol et allemand). Et ce, après avoir largement entraîné en anglais ses grands modèles de langage « Generative Pre-trained Transformer » (GPT, GPT-2, GPT-3 et l’actuel GPT-4, en attendant GPT-5 en cours de développement). Avant les groupes européens Le Monde, Prisa Media et Axel Springer, OpenAI avait conclu aux Etats-Unis deux partenariats signés en juillets 2023 avec respectivement l’agence de presse américaine Associated Press (AP) et l’association de soutien à l’information locale American Journalism Project (AJP).

Sur fond de plainte du New York Times
« Nous sommes impatients d’apprendre d’AP [et de savoir] comment nos modèles d’IA peuvent avoir un impact positif sur l’industrie de l’information. L’accès à ses archives de textes factuels de haute qualité, aideront à améliorer les capacités et l’utilité des systèmes d’OpenAI », avait alors dit Brad Lightcap, lors de l’annonce le 13 juillet 2023 du partenariat avec l’agence de presse américaine (3). Depuis près d’une décennie, AP utilise la technologie de l’IA pour automatiser certaines tâches routinières et libérer les journalistes pour faire des reportages plus fouillés. Elle va même jusqu’à publier des dépêches automatisées prévisualisant et récapitulant certains événements sportifs, élargissant ainsi son offre de contenu.

Le géant français du logiciel Dassault Systèmes a manqué l’occasion de se mesurer aux Gafam

Alors qu’un changement de gouvernance approche pour sa maison mère Dassault, la filiale Dassault Systèmes – numéro un français du logiciel de conception 3D – reste méconnue. « 3DS » (son surnom) est un rare géant européen qui aurait pu rivaliser avec les Gafam en s’adressant aussi au grand public.

Au 23 février 2024, la capitalisation boursière de l’éditeur français de logiciels Dassault Systèmes dépasse à peine les 57,8 milliards d’euros. La pépite du CAC40 est très loin des 1.000 à 3.000 milliards de dollars de capitalisation boursière de chacun des Gafam (Alphabet/Google, Meta/Facebook, Amazon, Apple et Microsoft). Quant aux cours de son action à la Bourse de Paris, elle a chuté de plus de 13 % à la suite de l’annonce, le 1er février, de prévisions décevantes du chiffre d’affaires attendu pour cette année 2024 : entre 6,35 et 6,42 milliards d’euros, en hausse de 8 % à 10 % par rapport à l’an dernier.

Une Big Tech méconnue des Français
Les analystes financiers s’attendaient à mieux. Depuis cette déconvenue, le cours de Bourse de Dassault Système a repris un peu du poil de la bête, mais a rechuté à partir du 9 février (1). Le fleuron français du numérique semble avoir du mal à convaincre les investisseurs, alors qu’il s’agit pourtant d’une entreprise en forte croissance et très rentable : près de 1 milliard d’euros de bénéfice net en 2022 (931,5 millions d’euros précisément), pour un chiffre d’affaires celle année-là de 5,66 milliards d’euros.
Dassault Systèmes est dirigé par Pascal Daloz depuis le 1er janvier, date à laquelle Bernard Charlès (photo)lui a confié la direction générale qu’il occupait depuis 2002 pour s’en tenir à la fonction de président du conseil d’administration après en avoir été PDG – DG de 1995 à 2023 et président du conseil d’administration depuis qu’il a remplacé en 2022 Charles Edelstenne (86 ans). Celui-ci est le fondateur de Dassault Systèmes en 1981, dont il est encore aujourd’hui le président d’honneur, tout en étant par ailleurs président de la holding de la famille Dassault GIMD (2) – sixième plus grande fortune de France, selon Challenges (3) – et président d’honneur et administrateur de Dassault Aviation, dont il fut le PDG (2000- 2013).