Apple, Nvidia et Anthropic accusés d'utiliser les transcriptions YouTube sans autorisation

Apple, Nvidia et Anthropic accusés d'utiliser les transcriptions YouTube sans autorisation

Selon une récente enquête de Proof News, des géants de la tech comme Apple, NVIDIA et Anthropic auraient utilisé sans autorisation des transcriptions de plus de 173 000 vidéos YouTube pour entraîner leurs modèles d'intelligence artificielle. Le jeu de données en question, créé par EleutherAI, une organisation à but non lucratif, contient des transcriptions provenant de plus de 48 000 chaînes YouTube. Cette découverte met en lumière une vérité dérangeante sur l'IA : elle repose souvent sur des données collectées sans le consentement ni la rémunération des créateurs.

Bien que le jeu de données ne contienne ni vidéos ni images, il inclut des transcriptions de vidéos des plus grands créateurs de la plateforme, comme Marques Brownlee et MrBeast, ainsi que des grands médias tels que The New York Times, la BBC et ABC News.

Marques Brownlee a réagi sur X (anciennement Twitter) en déclarant : "Apple a utilisé des données provenant de plusieurs entreprises pour leurs IA. L'une d'elles a récupéré des tonnes de données/transcriptions de vidéos YouTube, y compris les miennes." Il a ajouté que ce problème persistera encore longtemps.

Ni YouTube, ni Apple, NVIDIA, Anthropic, ni EleutherAI n'ont répondu aux demandes de commentaires de Geekit.

Les entreprises développant des IA n'ont jusqu'à présent pas été transparentes sur l'origine des données utilisées pour entraîner leurs modèles. Récemment, des artistes et photographes ont critiqué Apple pour ne pas avoir divulgué la source des données de formation pour Apple Intelligence, son propre système d'IA générative qui sera intégré à des millions d'appareils cette année.

YouTube, en tant que plus grande réserve de vidéos au monde, représente une mine d'or de transcriptions, mais aussi d'audio, de vidéos et d'images, ce qui en fait un jeu de données très attractif pour l'entraînement des IA. Plus tôt cette année, Mira Murati, la directrice technique d'OpenAI, a évité les questions du Wall Street Journal sur l'utilisation éventuelle des vidéos YouTube pour entraîner Sora, le prochain outil de génération de vidéos par IA d'OpenAI, en affirmant seulement que les données utilisées étaient "publiquement disponibles ou sous licence". Le PDG de YouTube, Neal Mohan, et celui d'Alphabet, Sundar Pichai, ont tous deux déclaré que l'utilisation de données de YouTube pour entraîner des modèles d'IA constitue une violation des conditions d'utilisation de la plateforme.

Pour vérifier si les sous-titres de vos vidéos YouTube ou de vos chaînes préférées font partie du jeu de données, vous pouvez utiliser l'outil de recherche mis à disposition par Proof News.

Source : Proof News

Anthony Rodier
A propos de l'auteur

Anthony Rodier

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.