L'IA génère des audios criblés de machisme, de racisme et de violations du droit d'auteur
Une analyse de 680 000 heures de sons dans des référentiels créés avec l'intelligence artificielle révèle des contenus offensants et non autorisés, comme c'est déjà le cas pour les textes et les images
Des mélodies ou transcriptions vocales à l'assistance aux malvoyants. L’intelligence artificielle (IA) générative du son a progressé à pas de géant au point où elle est désormais capable de créer un son de haute qualité. Malgré cela, les données utilisées pour entraîner l’IA ont négligé les préjugés, les propos offensants et l’utilisation de contenus protégés par le droit d’auteur, affirme une étude. Une équipe de chercheurs a effectué un examen exhaustif de 175 ensembles de données sur la parole, la musique et le son, et dans ses travaux préliminaires, ils ont averti qu'il existe des éléments biaisés, similaires à ceux trouvés dans les bases de données de textes et d'images.
Pendant un an, les scientifiques dirigés par William Agnew, de l'Université Carnegie Mellon (États-Unis), ont étudié 680 000 heures d'audio provenant de sept plateformes et 600 enquêtes au total pour analyser leur contenu, leurs biais et leur origine. Ainsi, les scientifiques ont tout obtenu, des transcriptions de discours aux paroles de chansons, et la plupart étaient en anglais. Les fichiers comprenaient des enregistrements vocaux – des phrases lues par des personnes – et des morceaux de musique provenant de plateformes telles que AudioSet et Free Music Archive, ainsi que deux millions de vidéos YouTube de 10 secondes.
Les chercheurs estiment que si les stéréotypes ne sont pas correctement traités, les ensembles de données audio peuvent générer des modèles qui « perpétuent, voire accélèrent » les préjugés et les conceptions déformées de la réalité. Julia Barnett, docteur en informatique de la Northwestern University (États-Unis) et collaboratrice de l'étude, assure que les gens ne sont pas conscients des préjugés. « En conséquence, considérer un ensemble de données comme le reflet de l’humanité sans comprendre sa véritable composition entraînera par la suite de nombreux effets négatifs », dit-il.
Pour Andrés Masegosa, expert en intelligence artificielle et professeur associé à l’université d’Aalborg au Danemark, les biais n’ont rien d’étonnant : « Cette technologie parvient à extraire des modèles à partir d’un ensemble de données et tente simplement de reproduire ce qui existe déjà. » L’IA fonctionne un peu comme l’apprentissage humain, suggère-t-il. "Si vous exposez un enfant à un comportement sexiste, il reproduira ce préjugé tout simplement inconsciemment", affirme l'universitaire, qui n'a pas participé à la recherche.
« Il existe de nombreuses tentatives pour éviter les biais et ce qui est clair, c’est que les modèles perdent en capacité. Il existe un débat dans le domaine de l’IA qui se reflète dans les différentes visions de chaque société », ajoute Masegosa. L'expert reconnaît que l'étude réalisée est un audit de grande envergure et estime que l'examen des ensembles de données est un travail assez coûteux.
Contrairement aux données textuelles, les données audio nécessitent plus de stockage, explique Sauvik Das, universitaire à l'Institut pour l'interaction homme-machine de l'Université Carnegie Mellon, qui a participé à la recherche. Cela implique qu’ils ont besoin d’une puissance de traitement beaucoup plus élevée pour être audités. « Nous avons besoin de plus de données pour disposer de modèles de meilleure qualité », affirme-t-il.
La voix est une donnée biométrique
Les dommages potentiels des technologies audio génératives ne sont pas encore connus. Les scientifiques suggèrent que ce type de contenu aura des implications sociales et juridiques allant du droit à la publicité à la désinformation et à la propriété intellectuelle, en particulier lorsque ces systèmes sont formés avec des données utilisées sans autorisation. L'étude indique qu'au moins 35% des audios analysés présentaient un contenu protégé par le droit d'auteur ou le droit d'auteur.
La voix est liée au droit à sa propre image, puisqu'elle fait partie des caractéristiques physiques d'une personne. Borja Adsuara, avocat expert en droit numérique, souligne que la voix présente les mêmes problèmes que les textes et les images générés avec l'IA, en matière de protection des données et de propriété intellectuelle. « La voix est une donnée biométrique et est spécialement protégée comme l’empreinte digitale ou l’iris de l’œil. Elle peut être violée si son utilisation n'est pas autorisée», explique ce spécialiste.
Adsuara se souvient de la célèbre polémique impliquant l'actrice Scarlett Johansson, lorsqu'en mai 2024 le chatbot Sky , d'OpenAI, avait un ton similaire à sa voix. AI a également utilisé les voix de musiciens pour simuler qu'ils chantent des mélodies qu'ils n'ont jamais interprétées, comme cela est arrivé au portoricain Bad Bunny et à l'artiste espagnol Bad Gyal . « Cela porte non seulement atteinte au droit à l'image de sa propre voix, mais également aux droits de propriété intellectuelle sur l'interprétation. Les problèmes sont les mêmes et ce que fait l’intelligence artificielle générative, c’est de faciliter beaucoup la commission d’un crime ou d’une intrusion », explique-t-il.
CONSTANZA CABRERA . El País, Espagne