IA gera áudios repletos de machismo, racismo e violação de direitos autorais
Análise de 680 mil horas de sons em repositórios criados com inteligência artificial revela conteúdos ofensivos e não autorizados, como já acontece com textos e imagens
Desde melodias ou transcrição de voz até atendimento a deficientes visuais. A inteligência artificial geradora de som (IA) avançou aos trancos e barrancos até o ponto em que agora é capaz de criar áudio de alta qualidade. Apesar disso, os dados utilizados para treinar a IA ignoraram preconceitos, linguagem ofensiva e a utilização de conteúdos protegidos por direitos de autor, afirma um estudo. Uma equipe de pesquisadores realizou uma revisão exaustiva de 175 conjuntos de dados de fala, música e som e, em trabalhos preliminares, alerta que há material tendencioso, semelhante ao encontrado em bancos de dados de textos e imagens.
Durante um ano, cientistas liderados por William Agnew, da Universidade Carnegie Mellon (EUA), estudaram 680 mil horas de áudio de sete plataformas e 600 investigações no total para analisar seu conteúdo, preconceitos e origem. Assim, os cientistas obtiveram de tudo, desde transcrições de falas até letras de músicas, e a maioria delas estava em inglês. Os arquivos incluíam gravações de voz – frases lidas por pessoas – e peças musicais de plataformas como AudioSet e Free Music Archive, além de dois milhões de vídeos de 10 segundos no YouTube.
Os investigadores acreditam que se os estereótipos não forem abordados de forma adequada, os conjuntos de dados de áudio podem gerar padrões que “perpetuam ou mesmo aceleram” preconceitos e concepções distorcidas da realidade. Julia Barnett, doutora em ciência da computação pela Northwestern University (EUA) e colaboradora do estudo, garante que as pessoas não têm consciência dos preconceitos. “Como consequência, ver um conjunto de dados como um reflexo da humanidade sem compreender a sua verdadeira composição levará a numerosos efeitos negativos mais tarde”, diz ele.
Para Andrés Masegosa, especialista em inteligência artificial e professor associado da Universidade de Aalborg, na Dinamarca, não há nada de surpreendente nos preconceitos: “Esta tecnologia consegue extrair padrões de um conjunto de dados e simplesmente tenta replicar o que já existe”. A IA funciona de forma muito semelhante à aprendizagem humana, sugere ele. “Se você expor uma criança a comportamentos sexistas, ela reproduzirá esse preconceito de forma simplesmente inconsciente”, sustenta a acadêmica, que não participou da pesquisa.
“Há muitas tentativas de evitar vieses e o que fica claro é que os modelos perdem capacidade. Há um debate no domínio da IA que se reflete nas diferentes visões que cada sociedade tem”, acrescenta Masegosa. O especialista reconhece que o estudo realizado é uma auditoria de grande porte e acredita que examinar os conjuntos de dados é um trabalho bastante caro.
Ao contrário dos dados de texto, os dados de áudio requerem mais armazenamento, diz Sauvik Das, acadêmico do Instituto de Interação Humano-Computador da Universidade Carnegie Mellon, que participou da pesquisa. Isso implica que eles precisam de um poder de processamento muito maior para serem auditados. “Precisamos de mais dados para ter modelos de maior qualidade”, argumenta.
A voz são dados biométricos
O dano potencial das tecnologias de áudio generativas ainda não é conhecido. Os cientistas propõem que este tipo de conteúdo terá implicações sociais e jurídicas que vão desde o direito das pessoas à publicidade, à desinformação e à propriedade intelectual, especialmente quando estes sistemas são treinados com dados utilizados sem autorização. O estudo indica que pelo menos 35% dos áudios analisados apresentavam conteúdo protegido por direitos autorais ou direitos autorais.
A voz está relacionada ao direito à própria imagem, pois faz parte das características físicas de uma pessoa. Borja Adsuara, advogado especialista em direito digital, destaca que a voz tem os mesmos problemas que textos e imagens gerados com IA, em relação à proteção de dados e propriedade intelectual. “A voz é um dado biométrico e é especialmente protegida como a impressão digital ou a íris do olho. Pode ser violado se seu uso não for permitido”, explica o especialista.
Adsuara lembra da conhecida polêmica envolvendo a atriz Scarlett Johansson, quando em maio de 2024 o chatbot Sky , da OpenAI, tinha um tom semelhante ao de sua voz. A IA também tem usado as vozes dos músicos para simular que cantam melodias que nunca tocaram, como aconteceu com o porto-riquenho Bad Bunny e o artista espanhol Bad Gyal . “Isso não apenas viola os direitos de imagem da própria voz, mas também os direitos de propriedade intelectual da interpretação. Os problemas são os mesmos e o que a inteligência artificial generativa faz é facilitar muito a prática de um crime ou de uma intrusão”, explica.
CONSTANZA CABRERA . El País, Espanha