Le géant du e-commerce Amazon, fondé par Jeff Bezos, fête ses 30 ans et la 10e édition de ses « Prime Day »

C’est la fête à Amazon ! Créé dans un garage près de Seattle le 5 juillet 1994 par Jeff Bezos – proche de redevenir la personne la plus riche du monde –, le site web de vente en ligne Amazon a 30 ans. Devenu le numéro mondial du e-commerce, « Amazon.com, Inc. », coté en Bourse depuis 1997, s’est largement diversifié.

Cela fait trois ans ce 5 juillet que Jeff Bezos (photo) – né Jeffrey Preston Jorgensen (60 ans cette année) et adopté à l’âge de quatre ans par un émigré cubain (Miguel Bezos), avec lequel sa mère s’était remariée – a passé en 2021 les rênes de son empire Amazon à Andy Jassy. Celui-ci est depuis lors le second directeur général en 30 ans d’existence du site Internet de commerce en ligne, devenu un géant diversifié du numérique. C’est justement aussi ce 5 juillet que la firme au sourire – s’étirant de la lettre A au Z de son logo officiel depuis l’année 2000 – fête sa création par Jeff Bezos, le 5 juillet 1994, dans le garage d’une maison louée à Bellevue dans la banlieue de Seattle (Etat de Washington). Après avoir travaillé dans successivement une fintech (Fitel), une banque (Bankers Trust) puis un fonds spéculatif (D. E. Shaw & Co), le jeune ingénieur – diplômé huit ans plus tôt de l’université de Princeton (1986) – décide de cofonder avec sa femme MacKenzie Scott (rencontrée lors de son dernier emploi) une librairie en ligne pour vendre des livres. Son entreprise s’appelle d’abord « Cadabra » mais, certains comprenant « cadavre », il la rebaptise quelques mois après « Amazon », du nom du plus grand fleuve mondial qu’est l’Amazone (« Amazon » en anglais) en Amérique du Sud, correspondant bien à son ambition d’en faire « la plus grande librairie du monde ». Et en commençant par un « A », Amazon se retrouve en haut des listes de sites web !

Presse : le kiosque digital PressReader a 25 ans

En clair. Basée à Richmond, dans la province de Colombie-Britannique au Canada, la société PressReader – ex-NewspaperDirect, rebaptisée ainsi en novembre 2013 – a son siège européen à Dublin en Ireland depuis 2017. Elle a été cofondée en 1999 par Alexander Kroogman, lequel a passé le flambeau de PDG à Ruairí Doyle en 2022 pour s’en tenir à un rôle de directeur exécutif au conseil d’administration.
A ses débuts, NewspaperDirect était un service d’impression à la demande de journaux, qui s’adressait déjà aux bibliothèques publiques, universités et institutions gouvernementales, ainsi qu’aux « hommes d’affaires » pour leurs lectures en chambre d’hôtels lors de leurs déplacements professionnels. L’offre Printon-Demand des débuts sera étendue aux aéroports, mais les éditeurs resteront frileux envers ce nouveau service digital. La version web PressDisplay est lancée en 2003, puis elle est renommée par la suite PressReader pour devenir un kiosque « all-you-can-read » donnant un « accès illimité », pour un prix unique, à des milliers de contenus presse. Aujourd’hui, le réseau de partenaires « B2B » – hôtels (1), avions (2), bibliothèques publiques (3), bateaux de croisière (4), … – rend accessible la plateforme dans 10.514 endroits dits hotspots dans plus de 140 pays.

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet. Exception de Text and Data Mining Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles. En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8). L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé. « Moissonnage » et données personnelles Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12). Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD. Base légale de l’intérêt légitime Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17). La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données. Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier). La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques. AI Office : recommandations très attendues Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @

L’industrie du livre est appelée à mieux rémunérer les auteurs à l’ère du numérique et de l’IA

Le Syndicat national de l’édition (SNE) a tenu le 27 juin 2024 son assemblée générale annuelle. L’industrie du livre dans les Vingt-sept, dont la France, va passer sous les fourches caudines de la Commission européenne qui a lancé – via sa DG Connect – une enquête sur les contrats d’auteur.

Ce n’est pas anodin à l’ère du numérique et en pleine déferlante de l’intelligence artificielle : la DG Connect – direction générale des réseaux de communication, du contenu et de la technologie de la Commission européenne – a lancé jusqu’au 21 juin une « enquête sur les pratiques contractuelles touchant le transfert du droit d’auteur et des droits voisins ». Si cette démarche porte sur le secteur de la création et de la culture en général au regard des artistes, elle concerne en particulier les maisons d’édition et leurs contrats avec les auteurs.

Papier, ebook, audio, streaming, IA, …
Cette enquête menée en ligne (1) s’est adressée d’abord directement aux auteurs et aux artistes des industries culturelles et créatives en Europe. Mais leurs organisations professionnelles et représentatives (2) ont pu y répondre aussi. L’objectif de cette étude est notamment de « recueillir des données et des preuves concernant les arrangements contractuels liés au transfert du droit d’auteur ou des droits voisins, et évaluer leurs effets, en particulier sur la capacité des créateurs à recevoir une rémunération équitable et la capacité des producteurs à utiliser efficacement leurs droits à long termes ». Les contrats d’édition posent problèmes et le partage de la valeur entre les éditeurs de livres et les auteurs laisse à désirer. A l’occasion du troisième anniversaire de l’entrée en vigueur de la directive européenne « Droit d’auteur et droits voisins dans le marché unique numérique » de 2019, le Conseil des écrivains européens – European Writers’ Council (EWC) basé à Bruxelles – a publié début juin un rapport sur « les clauses contractuelles dans les accords d’édition dans le secteur du livre européen » (3).

Droit de la consommation, propriété intellectuelle et droit pénal : les enjeux juridiques du métavers

Les défis juridiques posés par les métavers ne sont pas inédits. Mais la clé pour instaurer un climat de confiance dans le monde virtuel réside dans une adaptation proactive du cadre réglementaire actuel pour faciliter l’intégration harmonieuse et sécurisée du métavers dans notre société.

Par Arnaud Touati, avocat associé, et Dany Sawaya, juriste, Hashtag Avocats.

Le métavers est un environnement fictif en 3D, interactif et immersif, qui combine le monde réel avec des mondes virtuels. A l’intérieur, les individus peuvent incarner des avatars et interagir avec d’autres personnes ou avec des objets numériques. Imaginons un immense jeu vidéo multijoueur en ligne, regroupant divers univers de jeu où il est possible de naviguer librement. Une illustration saisissante de cette vision a été présentée dans le film « Ready Player One » de Steven Spielberg, sorti en 2018.

L’avatar, sujet de droit indépendant ?
Le métavers suit une trajectoire similaire aux enjeux soulevés par le Web, et plus récemment par la blockchain (chaîne de blocs, en français). Il est indéniable que, même dans un monde virtuel, la règle de droit continue à s’appliquer. Le métavers, tout comme la blockchain et Internet de manière générale, revêt une dimension intrinsèquement internationale. Le métavers est également un terrain de jeu fertile pour l’innovation et le développement. La France, consciente de cette opportunité, cherche à faire du métavers une priorité et envisage d’utiliser les Jeux Olympiques de 2024 à Paris (du 26 juillet au 11 août 2024) comme catalyseur pour rassembler les acteurs français des métavers. Toutefois, le développement du métavers soulève des questions juridiques complexes dans divers domaines tels que le droit de la consommation, la propriété intellectuelle, et le droit pénal. L’anticipation et l’encadrement juridique du métavers sont indispensables pour instaurer un climat de confiance et garantir une utilisation responsable et sécurisée de cette nouvelle frontière numérique. Défis et considérations juridiques du métavers en matière de consommation. Le métavers pose des défis inédits en matière de droit de la consommation. Par exemple, comment qualifier les contrats conclus entre avatars ? La capacité juridique de l’avatar repose-t-elle dans celle de l’utilisateur qui se trouve « derrière » ou l’avatar peut-il être reconnu comme un sujet de droit indépendant ? Dans ce monde virtuel, les règles de vente et de prestation de services ne sont pas encore clairement définies. Bien que le code de la consommation reconnaisse l’absence de présence physique simultanée des parties contractantes et l’utilisation de « techniques de communication à distance » pour qualifier un contrat à distance (1), la question se pose de savoir si cela est suffisant pour appréhender une transaction dans le métavers. On peut envisager que la capacité juridique de l’avatar repose dans celle de l’utilisateur qui le contrôle, faisant de l’avatar une extension légale de l’utilisateur, ou que l’avatar soit reconnu en tant que sujet de droit indépendant. La validité des contrats conclus entre avatars soulève également des interrogations quant à leur qualification juridique. Concernant la qualification du contrat comme « à distance », cela implique l’absence de présence physique simultanée des parties et « le recours exclusif à une ou plusieurs techniques de communication à distance jusqu’à la conclusion du contrat », cette qualification peut être appliquée dans le contexte du métavers. Ainsi, on peut envisager que les avatars qui recourent à un mode virtuel de communication au sein du métavers représentent une autre forme de « technique de communication à distance ». Quant à la qualification du contrat comme « hors établissement », qui repose sur l’exigence de « la présence physique simultanée des parties »soit au lieu de la conclusion soit au lieu de la sollicitation, elle n’est évidemment pas transposable dans le métavers.