Tecnologia

Nvidia y Apple, entre otras, usaron contenido de YouTube sin permiso para entrenar sus inteligencias artificiales


Una investigación revela que muchas grandes compañías tecnológicas han utilizado contenido de cientos de miles de vídeos con subtítulos para entrenar sus modelos de lenguaje

La inmensa mayoría de modelos de inteligencia artificial se entrenan utilizando textos, imágenes y vídeos de la red. Las compañías que los crean suelen guardar con celo las fuentes que utilizan pero ahora, una investigación de Proof News, una organización centrada en análisis y reportajes centrados en datos, ha revelado que algunas de las mayores parecen utilizar sin permiso los vídeos y transcripciones de la popular plataforma YouTube.

En su último informe, Proof News asegura que varios modelos de lenguaje de Apple, Nvidia, Salesforce o Anthropic, entre toras, parecen haber sido entrenados con las transcripciones y subtítulos de cientos de miles de vídeos disponibles sólo en YouTube, una plataforma que, en principio, no permite que terceras compañías usen el material publicado para este tipo de aplicaciones.

El estudio ha identificado al menos contenido de 173.536 videos de más de 48.000 canales diferentes. Entre ellos figuran los canales de conocidos YouTubers con millones de seguidores como MrBeast, PewDiePie o MKBHD.

Estas empresas habrían recurrido a un set de datos creado por una organización sin ánimo de lucro, EleutherAI, que habría sido la encargada de descargar los vídeos y añadirlos a una extensa base de datos de contenidos listos para ser interpretados por los motores de inteligencia artificial.

Los modelos de lenguaje, el núcleo de las modernas herramientas de IA, son capaces de entender e imitar el lenguaje natural o crear imágenes a partir de un texto porque han sido expuestos a miles de millones de ejemplos y han elaborado un complejo análisis estadístico de los mismos.

Para entrenarlos, compañías como OpenAI o Apple recurren a colecciones de ejemplos catalogados que aceleran el proceso. A veces estos contenidos se seleccionan de forma interna y otras veces recurren a colecciones ya creadas y catalogadas por otras empresas, organizaciones o grupos de investigación.

Es el caso de EleutherAI, que es la que ha compilado una base de datos conocida como The Pile, de unos 800 GB de tamaño, y en la que entre otros contenidos figuran los subtítulos de YouTube.

La colección está diseñada para entrenar modelos de reconocimiento de lenguaje natural y lo usan docenas de empresas, incluidas compañías como Nvidia o Microsoft. Los subtítulos de Youtube son una popular fuente da datos, en cualquier caso. OpenAI también ha reconocido que los utiliza para entrenar sus modelos, aunque tiene sus propias herramientas para extraerlos y los selecciona de forma independiente.

En el caso de Apple, la compañía ha confirmado que usó esta colección de datos de EleutherAI para el entrenamiento de su modelo de código abierto OpenELM, disponible de forma gratuita desde el pasado mes de abril. La empresa segura que las herramientas de inteligencia artificial que forman parte de Apple Intelligence, sin embargo, no se han entrenado con estos datos.

La investigación ha vuelto a poner el foco sobre los criterios que utilizan las grandes compañías de inteligencia artificial para entrenar sus modelos, a menudo utilizando material protegido por derechos de autor o sin licencia comercial, una práctica que está empezando a crear problemas legales a muchas de ellas.



Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button