Intelligence artificielle : Nvidia aurait aspiré le contenu de YouTube et Netflix sans autorisation
Nvidia fournit les précieux GPU nécessaires à l’utilisation de l’IA générative, mais il développe aussi ses propres modèles. Pour s’imposer face à la concurrence d’OpenAI, Google ou Meta, l’entreprise de Jensen Huang aurait aspiré des millions d’heures de vidéo depuis YouTube et Netflix, le tout sans en avoir la permission.
L’intelligence artificielle générative est-elle indissociable du non-respect de la propriété intellectuelle ? On pourrait le croire tant les cas d’abus sont courants. Le dernier en date concerne Nvidia, qui a entraîné certains modèles propriétaires sur des vidéos récupérées massivement de YouTube et Netflix, ainsi que du site de bandes annonces MovieNet et de diverses bases de données comme WebVid, InternVid-10M et HD-VG-130M.
D’après 404 Media, ces énormes quantités de données (700 000 heures de vidéo par jour) auraient été aspirées pour améliorer le « générateur de monde » d’Omniverse 3D, la plateforme Drive Sim et les modèles de création « humains numériques » de Nvidia. Le nom de code du projet serait Cosmos, et les modèles en résultant n’auraient pas encore été rendus publics. Le projet aurait été validé « au plus haut niveau », l’idée étant de mettre les autres parties devant le fait accompli et de s’arranger avec eux plus tard.
« Mieux vaut s’excuser après coup que demander la permission avant »
Cette stratégie est commune à la plupart des acteurs de l’IA générative et s’avère courante dans le milieu tech américain de manière générale. On se rappelle du vieux slogan de Meta : « move fast and break things ». OpenAI a fait la même chose pour son modèle Sora, de même que les start-up Runway AI, Stability AI et bien d’autres. Leur défense revient dans la plupart des cas à dire que le modèle ne fait qu’apprendre à partir de ces contenus, de la même manière qu’un humain apprend en lisant, visionnant, etc.
Une argumentation cynique et de mauvaise foi qui s’appuie sur le pseudo-mysticisme entourant cette technologie (souvent entretenu par les entreprises elles-mêmes) alors que leur fonctionnement n’est pas si complexe et revient en résumé à extraire et compresser les éléments clés des données d’entraînement sous forme de statistiques, puis à les restituer en mélangeant divers éléments en fonction des requêtes utilisateurs. C’est pour cela qu’ils comportent autant de paramètres et requièrent toujours plus de puissance de calcul.
Source : usine-digitale.fr