apple

Apple y otros gigantes tecnológicos usaron transcripciones de miles de vídeos de YouTube para entrenar procesos de IA

| 18 JULIO 2024 | ACTUALIZADO: 18 JULIO 2024 10:26

Los subtítulos de más de 170.000 vídeos de YouTube creados por más de 48.000 canales han sido usados por compañías como Apple, Salesforce, Nvidia o Anthropic para entrenar sus procesos de inteligencia artificial.

Todo ello sin el consentimiento de sus autores y contra la normativa interna de la propia plataforma. Esa es la conclusión de una reciente investigación de la organización sin ánimo de lucro Proof News difundida por Wired.

En ese proceso se usaron contenidos de creadores de YouTube que superan el centenar de millones de suscriptores como MrBeast o PewDiePie, de organizaciones educativas como Harvard o el MIT, y también vídeos subidos por medios como BBC o The Wall Street Journal.

La cantidad de piezas utilizadas varía de manera significativa entre unos y otros, y Proof News ha lanzado una herramienta para consultar los detalles.

Toda esa información transcrita forma parte de un conjunto de datos llamado YouTube Subtitles elaborado por la compañía EleutherAI, que señala en su web que proporciona «acceso a tecnologías de vanguardia de inteligencia artificial mediante el entrenamiento y el lanzamiento de modelos».

Ese archivo solo contiene texto obtenido de los vídeos y un documento de investigación de EleutherAI atribuye su recopilación a una organización sin ánimo de lucro llamada The Pile.

Esas compañías utilizaron un conjunto de datos accesible para cualquiera sin que mediara petición de permiso a creadores o plataforma.

La mayor parte de conjuntos de datos recogidos por ese colectivo están accesibles en abierto para cualquiera que tenga capacidad computacional suficiente para descargarlos y tratarlos. Y entre ellos están gigantes tecnológicos o incluso organizaciones como Bloomberg, que describen en sus propios documentos cómo han utilizado esa información para trabajar con sus modelos.

Preguntadas por Proof News sobre el origen de estos datos, varias de esas empresas se han atenido a su disponibilidad pública y remiten a The Pile las posibles cuestiones de violación de normativa de YouTube. Esa plataforma ya está sobre aviso de un posible incumplimiento por parte de OpenAI, cuyo producto Sora ha tenido que entrenarse con muchos contenidos multimedia para poder generar vídeos a partir de texto.

YouTube Subtitles está disponible en abierto desde 2020 y los autores de la investigación señalan que desde entonces más de 12.000 vídeos transcritos han sido retirados del servicio e incluso al menos uno de los creadores eliminó completamente su presencia digital. Pese a ello el contenido que subió en algún momento de su vida ha sido utilizado por un número indeterminado de empresas con finalidades poco claras.