Agencias/Ciudad de México.- Empresas tecnológicas como Apple, Nvidia y Anthropic han utilizado una base de datos de EleutherAI, que contiene transcripciones de más de 173,500 vídeos de YouTube, para entrenar sus inteligencias artificiales (IA), en contra de las normas de la plataforma de Google y sin el permiso de sus autores.
El director ejecutivo de YouTube, Neal Mohan, aseguró en abril que el uso de los vídeos de esta plataforma para entrenar modelos y herramientas de IA supone una violación de sus políticas. Se refería al supuesto uso que pudiera haber hecho OpenAI con Sora, una IA que crea escenas realistas de vídeo a partir de instrucciones de texto.
Mohan explicó entonces que se trata de un uso indebido porque los creadores de contenido que deciden publicar vídeos en YouTube esperan que su trabajo esté protegidos por los términos del servicio.
Our latest investigation reveals a dataset of more than 170,000 YouTube video subtitles that big tech companies used to train their AI models.
“Will this be used to exploit and harm artists? Yes, absolutely,” says @dwiskus.https://t.co/Md5fQUVrnZ
— Proof News (@proof__news) July 16, 2024
Pese a las políticas de la plataforma, parece ser una práctica extendida, como muestra ahora una nueva investigación de Proof News. En este caso, empresas tecnológicas de primera línea, entre las que estarían Apple, Nvidia, Salesforce y Anthropic, han entrenados sus IA con transcripciones de miles de vídeos de YouTube.
No habrían accedido a ellos de manera directa, sino a través de la base de datos facilitada por la firma EleutherAI, en la que el medio citado ha encontrado transcripciones de 173,536 vídeos de YouTube, de más 48,000 canales, de autores como MIT, Harvard, The Wall Street Journal, BBC, MrBeast y PewDiePie, entre otros.
Aunque la base de datos no incluye imágenes, solo los textos de los vídeos -es decir, subtítulos y traducciones a otros idiomas-, los datos se habrían recogido y usado para el entrenamiento de IA sin permiso de sus autores, como denuncian en Proof News.
Salesforce y Anthropic confirmaron al medio citado el uso de la base de datos de EleutherAI, que es en realidad parte de una compilación mayor denominada ‘Pila’ y que también contiene material procedente del Parlamento Europeo, la Wikipedia en inglés y correos corporativos de los empleados de Enron que se hicieron públicos en una investigación federal en Estados Unidos. Gran parte de esta Pila es accesible de manera pública y la usan también académicos e investigadores.
The Pile: An 800GB Dataset of Diverse Text for Language Modeling. https://t.co/8sWq0BVz8h pic.twitter.com/QvsYQ9m6n4
— arxiv (@arxiv_org) January 5, 2021