La bataille des IA génératives d’images et de vidéos s’exacerbe, avec les Etats-Unis en force

Publié le 20 janvier 2025 par Charles de Laubier

Après deux ans de bataille des IA génératives textuelles, déclenchée fin novembre 2022 par ChatGPT d’OpenAI, l’année 2025 s’annonce comme celle des IA génératives d’images et de vidéos. Edition Multimédi@ passe en revue une sélection de concurrents, tous d’origine américaine. Mais les chinois sont en embuscades.

Grok
Pays d’origine : Etats-Unis
Propriétaire : xAI (Elon Musk)
Lancement : novembre 2023
Générateur de textes et d’images
https://x.ai/grok, https://x.com/i/grok
Disponibilité : gratuit depuis le 14-12-24
Accessible en France : oui
Remarque : Grok est développé par la start-up xAI créé en juillet 2023 par le milliardaire Elon Musk (cofondateur d’OpenAI qu’il a quitté en 2018). En plus de générer du texte, Grok peut aussi faire de même en créant des images réalistes grâce à son modèle text-to-image Aurora.

Sora
Pays d’origine : Etats-Unis
Propriétaire : OpenAI (Sam Altman)
Lancement : février 2024
Générateur de vidéo ultraréalistes
https://openai.com/sora, https://sora.com
Disponibilité : payant dans ChatGPT Plus et Pro
Accessible en France : non
Remarque : Sora est un modèle de type text-to-video développé par OpenAI, déjà à l’origine de ChatGPT, lequel intègre Sora depuis début décembre 2024 via les abonnements payants ChatGPT Plus et ChatGPT Pro. Sora signifie en japonais « ciel » (potentiel illimité). (suite)

La start-up californienne World Labs livre un aperçu de l’avenir de l’IA générative en 3D

Publié le 16 décembre 2024 par Charles de Laubier

Le 2 décembre, la start-up World Labs — devenue en septembre une licorne avec sa levée de fonds de 230 millions de dollars — a présenté en ligne les premiers résultats de son IA générative capable de générer des mondes en 3D, où les utilisateurs peuvent interagir directement.

Imaginez : vous soumettez une de vos photos ou images à une IA générative et celle-ci va créer pour vous un monde en trois dimensions (3D) où vous pourrez évoluer à partir du navigateur de votre ordinateur ou de votre smartphone. Bienvenus dans l’« intelligence spatiale ». C’est cet exploit technologique de génération d’une géométrie en 3D que promet de généraliser prochainement la jeune pousse cofondée en janvier 2024 par la chercheuse et professeure Fei-Fei Li (photo), sa PDG, Ben Mildenhall (ex-Google), Justin Johnson (ex-Meta) et Christoph Lassner (ex-Meta).

Films, jeux, … révolution « GenAI 3D »
Pour l’instant, des aperçus navigables par tous ont été mis en ligne depuis le 2 décembre (1), tandis que seulement « quelques créateurs » peuvent expérimenter l’IA générative 3D. Les autres doivent s’inscrire sur une liste d’attente (2), en prévision du prochain lancement. « Nous travaillons dur pour mettre cette technologie entre les mains des utilisateurs dès que possible ! », a assuré World Labs dans sa présentation du 2 décembre. « A partir d’une image d’entrée, notre système estime la géométrie 3D, remplit les parties invisibles de la scène, invente de nouveaux contenus pour que vous puissiez vous retourner, et génère une grande variété de types de scènes et de styles artistiques », explique-t-elle. Et de préciser : « Nos scènes 3D peuvent être rendues en temps réel dans le navigateur avec un contrôle total de la caméra. Cela signifie que vous pouvez les explorer avec une caméra en mouvement libre comme dans un jeu vidéo, ou même simuler des effets de caméra 3D comme une faible profondeur de champ ou un zoom chariot » (3). Une fois dans son navigateur, l’utilisateur évolue en temps réel dans le nouveau monde 3D, comme avec une caméra virtuelle, à l’aide de ses touches « WASD » sur un clavier Qwerty, ou avec les touches « ZQSD » pour un clavier Azerty à la française : Z pour avancer, Q pour aller à gauche, S pour reculer, D pour aller à droite. Avec la souris, il suffit de cliquer et de faire glisser pour regarder autour. (suite)

L’année 2024 sera-t-elle plus « intelligente » que les précédentes ? Les acteurs de l’IA y travaillent

Publié le 29 janvier 2024 par Charles de Laubier

Edition Multimédi@ est partenaire média du 3e World AI Cannes Festival (WAICF), rendez-vous mondial consacré à l’intelligence artificielle et organisé du 8 au 10 février 2024 au Palais des festivals de Cannes. L’occasion de faire le point sur quelques forces en présence d’envergue mondiale.

L’intelligence artificielle, c’est désormais le foisonnement permanent sur fond de bataille des LLM (Large Language Model), ces grands modèles de langage utilisés par les agents conversationnels et les IA génératives, capables d’exploiter en temps réel des milliards voire des dizaines de milliards de paramètres. Depuis le 30 novembre 2022, date du lancement fracassant de ChatGPT (1) d’OpenAI, cornaqué par Microsoft (2), le marché mondial de l’IA ne cesse de prendre de l’ampleur. Alors que les questions sur les IA responsables (éthique, biais, droit d’auteur, droit à l’image, …) sont autant de défis à relever. Parmi les derniers prétendants aux premières places de la course à l’intelligence numérique potentiellement utilisable par des milliards d’êtres humains connectés : Mistral AI, Gemini, Anthropic et Llama, en attendant Ferret… d’Apple.

• Mistral AI. La start-up française, devenue licorne (non cotée en Bourse mais valorisée près de 2 milliards d’euros), a été fondée en avril 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix. Le 10 décembre dernier, elle a annoncé avoir levé 385 millions d’euros auprès d’investisseurs et a ouvert à l’intention des développeurs sa plateforme open source de modèles génératifs « les plus puissants » dans leur version bêta (3). Arthur Mensch, un ancien « scientist » de chez DeepMind, filiale de Google (tandis que les deux autres cofondateurs viennent de Facebook/Meta), a l’ambition de « créer un champion européen à vocation mondiale dans l’intelligence artificielle ». Son modèle d’IA, baptisé « Mixtral 8x7B », a été présenté comme étant six fois plus rapide que le langage Llama 2 70B du groupe Meta qu’il « surpasse » dans « la plupart des benchmarks ». De plus, « il égale ou surpasse GPT 3.5 [d’OpenAI] » (4).

Un an après avoir lancé ChatGPT, aux airs de « Google-killer », OpenAI prépare un « smartphone-killer »

Publié le 20 novembre 2023 par Charles de Laubier

La start-up californienne OpenAI, cofondée par son actuel DG Sam Altman et devenue licorne valorisée presque 100 milliards de dollars, défraie la chronique depuis le lancement de ChatGPT il y a un an. Après avoir déstabilisé Google, elle veut lancer un petit terminal « smartphone-killer » boosté à l’IA.

(Vendredi 17 novembre 2023 au soir, heure de Paris, soit peu après le bouclage du n°310 de Edition Multimédi@ faisant sa Une sur OpenAI et Sam Altman, nous apprenions le limogeage surprise de ce dernier par son conseil d’administration. Vingt-quatre heure après, OpenAI revenait sur sa décision… Après avoir hésité à rejoindre Microsoft prêt à l’embaucher, Sam Altman a finalement trouvé le 22 novembre un accord avec OpenAI – avec le soutien du bailleur de fonds Microsoft – pour finalement y retourner !)

Google et Apple pourraient bien être les prochaines victimes collatérales d’OpenAI. Car la licorne à l’origine de l’IA générative ChatGPT, lancée il y a un an presque jour pour jour, accélère son offensive technologique. D’une part, elle a organisé le 6 novembre sa toute première conférence des développeurs, OpenAI DevDay, où ont notamment été lancés un « GPT-4 Turbo » et des interfaces de programmation (API) pour créer des agents conversationnels personnalisés intégrables dans des applications ou pour développer son propre « ChatGPT » autonome sans codage (1).
En mettant le turbo, OpenAI veut faire une super-IA tout-en-un capable de générer par elle-même aussi bien du texte et des images, mais aussi de l’audio et de la vidéo. Le 9 novembre, un programme open source baptisé « OpenAI Data Partnerships » (2) a même été lancé pour exploiter tous azimuts des données publiques et privées afin de former encore plus largement les IA génératives. Ce qui positionne la future plateforme IA intégrée d’OpenAI comme un potentiel « Google-killer ». D’autre part, son PDG cofondateur Sam Altman (photo) avait confirmé dès fin septembre être en « discussions avancées » avec l’ancien designer de l’iPhone chez Apple, l’Américano-britannique Jony Ive, et le PDG fondateur du conglomérat Softbank, le Japonais Masayoshi Son, autour d’un projet de lancement d’un terminal à intelligence artificielle susceptible de remplacer à terme les smartphones (3).

Un trio de rêve : OpenAI-Softbank-LoveFrom
Parallèlement, mais sans lien a priori avec ce projet d’appareil, Sam Altman a dit le 13 novembre au Financial Time qu’il demandait à Microsoft des fonds supplémentaires, en plus des 10 milliards de dollars déjà accordés sur plusieurs années par ce dernier, afin de rendre l’IA encore plus intelligente – vers le futur ChatGPT-5 et au-delà (4). Il faudra en tout cas attendre de nombreux mois avant que ne voit le jour le terminal IA grand public rêvé par OpenAI, LoveFrom (société de design créée en 2019 par Jony Ive (5) qui a recruté d’anciens collègues d’Apple comme Marc Newson) et Softbank, dont la filiale britannique ARM pourrait produire les puces.

Le ministère de la Culture et l’Arcom (ex-CSA+ Hadopi) scrutent les usages « Google Images »

Publié le 27 juin 2022 par Charles de Laubier

La nouvelle ministre de la Culture, Rima Abdul Malak, et l’Autorité de régulation de la communication audiovisuelle et numérique (Arcom) se penchent sur les usages de la photographie en ligne, à la lumière d’une étude présentée le 8 juin dernier. Pour relancer le projet de taxe « Google Images » ?

Si l’étude de l’Arcom sur la photographie en ligne – en deux parties, l’une sur le volet économique et l’autre sur les usages des internautes – fait grand cas de Google Images, qui est « de loin le moteur de recherche le plus utilisé pour la recherche d’images », aucune mention n’est cependant faite sur l’ancien projet de redevance sur les images indexées par les Google, Yahoo, Microsoft Bing ou autres Qwant. Cette taxe « Google Images » est bien prévue par la loi « Création » du 7 juillet 2016. Mais depuis six ans, elle n’a jamais vu le jour. A la lumière de l’étude de l’Arcom, le ministère de la Culture va-t-il finalement l’instaurer ? Demander des comptes aux moteurs Pour mémoire, loi « Création » du 7 juillet 2016 prévoit en effet un « dispositif relatif aux services automatisés de référencement d’images », à la suite d’un amendement déposé par Jean-Pierre Leleux, alors sénateur, et adopté : « Cet amendement vise à instaurer un mécanisme permettant d’assurer la rémunération des auteurs d’œuvres d’art plastiques, graphiques et photographiques ou de leurs ayants droit pour les images que les moteurs de recherche et de référencement s’approprient aujourd’hui sans autorisation et mettent à la disposition du public sur Internet », était-il justifié (1). Un projet de décret avait ensuite été notifié, le 5 septembre 2016, à la Commission européenne (2). Mais c’était sans compter sur un avis négatif du Conseil d’Etat qui, en février 2017, a pointé « les risques juridiques » (3) au regard notamment d’une décision du 16 novembre 2016 de la Cour de justice de l’Union européenne (CJUE). Celle-ci estimait qu’un tel mécanisme de gestion collective obligatoire applicable aux moteurs de recherche d’images ne pouvait pas être mis en œuvre à un niveau national sans être expressément autorisé par le droit européen. L’affaire en était restée là, jusqu’à ce que la directive européenne de 2019 sur « le droit d’auteur et les droits voisins dans le marché unique numérique » ne permette ces « licences collectives » – dans son article 12 justement (4). Et depuis un an, en France, la Société des auteurs dans les arts graphiques et plastiques (ADAGP) se verrait bien – avec la Société des auteurs des arts visuels et de l’image fixe (SAIF) – être le gestionnaire de cette taxe « Google Images » (5). Cela fait maintenant un an – depuis le 7 juin 2021 – que la directive « Copyright » est censée être transposée par chacun des Vingt-sept, et la France se fait fort de l’appliquer en premier. Présentée par Raphaël Berger (photo), directeur de la création à l’Arcom et ancien directeur des études et de l’offre légale à l’Hadopi (laquelle a fusionné avec le CSA pour former l’Arcom au 1er janvier 2022), cette étude sur la photographie en ligne a été réalisée dans le cadre de sa mission « d’observation des usages en ligne et d’évaluation des mesures de protection des œuvres sur les plateformes de partage de contenus ». L’un des principaux constats est que « Google est de loin le moteur de recherche le plus utilisé pour la recherche d’images » (83 % des 15 ans et plus, voire 88 % des 50-64 ans et plus), loin devant Yahoo, Microsoft Bing ou Qwant. Leurs trois premiers avantages : le large choix de photos, la possibilité de trouver des photos libres de droit, et la possibilité de faire une recherche précise par mots-clés. En revanche, relève l’Arcom, « le fait que les photos ne soient pas toujours libres de droit constitue le principal reproche formulé à l’encontre des moteurs de recherche ». Quant aux réseaux sociaux, ils sont aussi utilisés pour rechercher des photos – Facebook (57 % des 15 ans et plus, voire 73 % des 65 ans et plus), Instagram et YouTube étant en tête des usages « photographiques ». Globalement, l’Arcom signale que « plus de la moitié [52 %] de ceux recherchant des photos en ligne ont déjà entendu parler des mesures techniques de protection (MTP) qui permettent de protéger les œuvres en empêchant la copie non autorisée ». En revanche, les métadonnées des photos sont relativement peu connues : seuls 16 % savent de quoi il s’agit (6). Entre « sites illicites » et droit d’auteur Autre enseignement : plus d’un tiers des internautes (35 %) qui recherchent des photos en ligne déclarent avoir recours à des « sites illicites » pour rechercher des photos. Mais ce qui saute aux yeux, d’après l’étude de l’Arcep, c’est la « bonnes connaissances relatives » sur le droit d’auteur (7) pour 60 % des internautes. Dommage que l’Arcom n’ait pas saisi l’occasion de cette étude pour demander aux internautes leur avis sur l’éventualité d’une taxe « Google Images » versés par les moteurs de recherche et les réseaux sociaux aux auteurs et photographes via des organismes de gestion collective des droits. @

Charles de Laubier

Edition Multimédi@

Economie numérique et Nouveaux médias

Archives par mot-clé : Images

La bataille des IA génératives d’images et de vidéos s’exacerbe, avec les Etats-Unis en force

La start-up californienne World Labs livre un aperçu de l’avenir de l’IA générative en 3D

Un an après avoir lancé ChatGPT, aux airs de « Google-killer », OpenAI prépare un « smartphone-killer »

Le ministère de la Culture et l’Arcom (ex-CSA+ Hadopi) scrutent les usages « Google Images »