Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

Les enjeux du droit d’auteur à l’ère de l’intelligence artificielle (IA) : entre exceptions et interprétations

La propriété intellectuelle est entrée dans une zone de turbulences provoquées par les IA génératives. L’utilisation d’œuvres reste soumise à l’autorisation des auteurs, mais le droit d’auteur est limité dans certains cas comme la fouille de textes et de données. L’AI Act sera à interpréter.

Par Jade Griffaton et Emma Hanoun, avocates, DJS Avocats*

La récente législation européenne sur l’intelligence artificielle (IA) – l’AI Act dans sa dernière version de compromis final datée du 26 janvier 2024 (1) (*) (**) – adopte une définition flexible de « système d’IA », désigné comme « un système basé sur des machines conçues pour fonctionner avec différents niveaux d’autonomie et d’adaptabilité après leur déploiement et qui, à partir des données qu’il reçoit, génère des résultats tels que des prédictions, du contenu, des recommandations ou des décisions pouvant influencer des environnements physiques ou virtuels » (2).

Exception de « fouille de textes et de données »
La question de la relation entre le droit de la propriété littéraire et artistique et l’IA est une préoccupation ancienne. Lors de la phase d’entraînement, le système d’IA reçoit des données. A ce stade, se pose la question de l’intégration de contenus protégés par le droit d’auteur aux fins du développement du système. Lors de la phase de génération, le système d’IA génère des résultats, voire des créations, à la demande de l’humain. Se pose alors la question de l’encadrement juridique de ces créations générées, en tout ou partie, par un système d’IA. Ces problématiques juridiques actuelles doivent être envisagées à la lumière des nouveaux textes destinés à réguler le domaine de l’IA, et notamment la récente proposition de règlement européen sur l’IA, et la proposition de loi française visant à encadrer l’utilisation de l’IA par le droit d’auteur (3).
De nouveaux contours de la possibilité d’utiliser des œuvres pour entraîner l’IA ? Les systèmes d’IA ont besoin, au stade de leur apprentissage et développement, d’avoir accès à de grands volumes de textes, images, vidéos et autres données. Ces contenus sont susceptibles d’être protégés par le droit d’auteur. L’objectif principal du règlement IA, dévoilé en 2021 par la Commission européenne, consiste à réguler les systèmes d’IA introduits sur le marché européen, en adoptant une approche axée sur les risques et en assurant un niveau élevé de protection des droits fondamentaux, de la santé publique, de la sécurité et de l’environnement.

La télévision numérique terrestre (TNT) en France reste dominée par les groupes privés TF1 et M6

La TNT présente encore la meilleure alternative en France face aux plateformes globales de SVOD. Problème : les groupes privés TF1 et M6 – dont les autorisations arrivent à échéance en mai 2023 – sont toujours en position dominante. L’appel à candidature lancé par l’Arcom va les bousculer. Les groupes TF1 et M6 ne possèdent pas seulement les chaînes éponymes historiques (TF1 et M6) mais aussi bien d’autres chaînes gratuites de la TNT : TMC, TFX, TF1 Séries Films et LCI, soit au total cinq chaînes du côté de la filiale du groupe Bouygues ; M6, W9, 6ter et Gulli, soit également cinq chaînes du côté de la filiale de RTL Group du groupe Bertelsmann. Et encore, si l’on considère les chaînes payantes de la TNT, il y a Paris Première au sein du groupe M6. TF1 et M6 = 40 % des chaînes gratuites Ensemble, les groupes TF1 et M6 – qui ont finalement abandonné mi-septembre 2022 leur projet de fusion (1) – cumulent dix chaînes gratuites de la TNT. Cela représente tout de même 40 % des 25 chaînes gratuites de la TNT (voir tableau ci-dessous). Mais leur position dominante – si l’on considère ce « duopole » potentiel – est surtout le fait de leur chaîne « vaisseau amiral » que sont les chaînes TF1 et M6. « Chaînes historiques lancées à l’ère de la télévision analogique, TF1 et M6 sont les deux principaux services privés en clair de la TNT. Ils se caractérisent en particulier par leur capacité à fédérer une large audience, leurs parts de marché publicitaire, la diversité des programmes qu’ils diffusent, leur contribution au renouvellement de l’offre et le poids de leurs investissements en production. Ces services bénéficient d’une exposition avantageuse aux numéros 1 et 6 dans le plan de numérotation des chaînes de la TNT », résume l’Autorité de régulation de la communication audiovisuelle et numérique (Arcom) dans son étude d’impact publiée le 17 novembre dernier (2). Ce sont justement les autorisations accordées aux sociétés Télévision Française 1 (filiale de Bouygues) et Métropole Télévision (filiale de RTL Group/Bertelsmann) pour ces chaînes gratuites TF1 et M6 qui arrivent à échéance le 5 mai 2023. L’Arcom, qui n’avait pas vu d’un très bon oeil le projet de fusion TF1-M6 en raison « des effets notables (…) sur les marchés publicitaires, de l’édition et de la distribution, ainsi que (…) de l’acquisition de programmes » (3), veut saisir cette opportunité pour redynamiser la TNT en perte de vitesse. Aussi, c’est la toute première fois que les chaînes historiques vont devoir répondre à un appel à candidatures pour les fréquences gratuites qu’elles détiennent jusque-là – et non pas se contenter d’une procédure simplifiée de nouvellement d’autorisation sur les fréquences gratuites respectives (ces fameuses ressources radioélectriques). C’est une petite révolution dans le PAF – paysage audiovisuel français. « Ni la consultation publique, ni l’étude d’impact ne font apparaître que la situation économique actuelle du marché de la TNT gratuite s’oppose au lancement d’un appel à candidatures pour autoriser deux chaînes nationales gratuites et financées par la publicité », en a conclu l’Arcom présidée par Roch-Olivier Maistre (photo). Le régulateur de l’audiovisuel a même estimé que « compte tenu de la place de TF1 et M6 sur le marché (en termes de publicité, d’audience et de programmes notamment), l’absence de lancement de l’appel à candidatures serait dommageable pour le marché et pour le téléspectateur qui verrait l’offre mise à sa disposition se réduire ». L’appel à candidatures – susceptible d’ouvrir la TNT à un nouvel entrant – a été lancé par l’Arcom le 7 décembre (4) et jusqu’au 23 janvier 2023 (aactnt@arcom.fr). Cela pourrait revigorer la concurrence entre les chaînes gratuites, bousculer les « rentes » de situations ou toute autre position dominante du « duopole » TF1-M6. D’autant que l’attribution des ressources rendues disponibles, à partir du 6 mai 2023 précisément, intervient au moment où la consommation de la télévision est en baisse et l’audience des téléspectateurs vieillissante. « La durée d’écoute individuelle (DEI) de la télévision a atteint un pic en 2012 (3h50), avant d’entamer une baisse, qui s’est accélérée en 2018 et 2019 » (la hausse durant la crise sanitaire n’ayant été que conjoncturelle). Le groupe TF1 a perdu 5,8 points de part d’audience entre 2007 et 2021, toutes chaînes confondues, dont les chaînes gratuites rachetées NT1 (devenue TFX) et HD1 (devenue TF1 Séries Films) ou lancées TMC (ex-Télé Monte-Carlo) qui ont limité la casse. De même, le groupe M6 a réussi à maintenir une part d’audience stable sur l’ensemble de la période grâce aux lancements de W9 et de 6ter, et à l’acquisition de Gulli. Pour autant, les chaînes TF1 et M6, avec leur part d’audience respective de 19,7 % et de 9,1 %, s’arrogent à eux deux près de 30 % de l’audience TV nationale (voir tableau ci-contre), voire 40 % avec toutes leurs chaînes. NJJ Médias (Niel) veut jouer les trouble-fête Les deux groupes privés dominants de la TNT pratiquent chacun la « circulation de leurs programmes » entre leurs différentes antennes respectives, ce qui contribue à leur « position importante » sur la TNT gratuite. Mais les téléspectateurs ont vieilli. « La durée d’écoute des plus de 50 ans est globalement en hausse depuis 2010 ». La moyenne d’âge de TF1 est montée à 55 ans, tandis que celle de M6 est aussi en augmentation à 49 ans. L’époque de la « ménagère de moins de 50 ans » est révolue mais la catégorie d’âge reste. Le constat est sans appel : « L’offre des services de la TNT subit depuis plusieurs années une érosion de ses audiences et un vieillissement des téléspectateurs. Ce problème d’attractivité s’accompagne d’une fragmentation des services liée à l’élargissement de l’offre TNT permis par le passage à la diffusion numérique ». Cela n’a pas empêché les groupes privés TF1 et M6 à maintenir des « positions d’importance » (dixit) au regard du reste de l’offre TNT. Le jeune public, lui, est plus attiré par les réseaux sociaux et les plateformes de SVOD que par les chaînes de la TNT. C’est un fait à l’ère des « adolécrans » (5). « L’arrivée à échéance des autorisations des services TF1 et M6 intervient dans un contexte plus large de bouleversements majeurs du secteur audiovisuel, tant en termes d’offre que d’usages, qui trouvent notamment leur origine dans les innovations technologiques induites par la révolution numérique. Ces évolutions, qui se traduisent par une concurrence accrue sur le marché, en particulier de la part d’acteurs internationaux, sont de nature à impacter la place occupée par les acteurs locaux de la TNT dans cette offre audiovisuelle élargie », souligne l’étude d’impact de l’Arcom. Reste à savoir si NJJ Médias (NJJ Holding), présidé par le milliardaire Xavier Niel – candidat malheureux à deux reprises au rachat de M6 – répondra – à temps (6) – à l’appel à candidatures pour une nouvelle chaîne de télévision gratuite sur la TNT après avoir manifesté le 28 novembre auprès de l’Arcom (7) son intérêt. @

Charles de Laubier

 

La licence légale ne discrimine plus les webradios

En fait. Le 4 février, Xavier Filliol a précisé à EM@ que le contrat-type de licence légale pour les webradios commerciales sur lequel se sont mis d’accord la Sacem et le Geste, où il est co-président de la commission « Audio Digital », s’applique « à l’ensemble de la filière ». Quinze ans de négociations !

En clair. « Ce nouveau contrat-type a bien vocation à remplacer le précédent pour l’ensemble de la filière », nous précise Xavier Filliol, co-président de la commission
« Audio Digital » du Groupement des éditeurs de contenus et de services en ligne (Geste) qui a négocié durant quinze ans avec la Société des auteurs, compositeurs
et éditeurs de musique (Sacem). Ce contrat-type dit « d’autorisation pour une diffusion en flux continu d’œuvres sur Internet » pour les webradios commerciales est plus intéressant pour elles par rapport à la licence légale antérieure. En effet, au lieu de devoir payer à la Sacem pour le compte de sa SDRM (1) 12 % sur ses recettes annuelles assortie d’une redevance minimale de 200 euros HT par an et par canal de diffusion, la webradio bénéficie de meilleures conditions tarifaires. Le Geste a réussi à négocier une assiette portant uniquement sur les recettes intégrées au flux lorsque la webradio commerciale diffuse en streaming (flux continu) de la musique soumise au droit d’auteur. Ainsi, selon l’article 7 du contrat-type que nous nous sommes procuré (2), la « rémunération » que devra reverser la webradio correspondra à un « un pourcentage du montant total de ses recettes (…), au prorata de la durée des œuvres du répertoire sur la durée totale des programmes mis à disposition par le contractant
au sein des canaux de diffusion proposés sur son service ». Concrètement : si la quote-part de la durée des œuvres du répertoire sur la totalité de la durée du flux continu
d’un canal de diffusion – comprenez un flux distinct, une webradio pouvant en avoir plusieurs sur un même service – ne dépasse pas 15 %, la redevance à payer sera
de seulement 3%; si elle est de 15 % à 30 %, la redevance passera à 6%; si c’est de
30 % à 70 %, la redevance sera de 9%; au-delà jusqu’à 100 %, la redevance passera
à 12 %.
Cette progressivité de la licence légale appliquée aux webradios met fin à la discrimination (3) dont elles faisaient l’objet avec l’ancien taux unique de 12 % – alors que les radios de la FM bénéficient, elles, d’un taux moitié moins élevé (7 %). Le minimum garanti (MG) annuel est lui aussi modulé en fonction du nombre de canaux de diffusion. La SCPP et la SPPF – qui furent opposées à l’extension de la licence légale aux webradios – devraient a priori adopter les mêmes conditions « Sacem » applicables à l’ensemble de la filière (4) via la Spré (5). @