The New York Times

The New York Times veta el uso de su contenido para entrenar sistemas de inteligencia artificial

| 15 AGOSTO 2023 | ACTUALIZADO: 18 AGOSTO 2023 10:05

El pasado 3 de agosto The New York Times actualizó sus términos de uso para incluir la prohibición de la ingesta de sus contenidos de cara a entrenar cualquier sistema basado en aprendizaje automático o inteligencia artificial. Además, la editora del periódico veta que robots de rastreo con fines de indexación para posicionamiento sean aprovechados con ese objetivo en una cláusula que apunta directamente a Google y Microsoft.

Eso protege en principio el enorme archivo de texto, imágenes o ilustraciones acumulado en los 172 años de historia del diario, sumado al inventario multimedia que ha realizado desde el estreno de su versión digital en 1996. Pero en todo caso, la lista de formatos no es exhaustiva e incluye también metadatos o el propio diseño de la experiencia de usuario como forma de impedir que un tercero emplee sin licencia cualquier propiedad de The New York Times. Lo que esos términos no concretan es la sanción a la que se expondría un eventual infractor y desde el diario no hay mayor concreción, según refleja AdWeek tras haber elevado consulta al respecto.

Uno de los aspectos más problemáticos de la prohibición es que precisamente los sistemas que utilizan esos datos son muy similares a los bots con los que los buscadores rastrean las webs para indexar su contenido. Y de momento los medios no tienen la posibilidad de discriminar la intención de esos procesos para permitir operar a unos frente a otros sobre su contenido. Eso, por ejemplo, hace posible que aplicaciones de inteligencia artificial generativa puedan acceder a piezas colocadas tras un muro de pago para aflorar respuestas a preguntas directas en búsquedas o conversaciones con bots, con el eventual perjuicio que eso pueda generar a los editores.

Eso deja en manos de los creadores de esa tecnología la opción de dar mayor control a los medios sobre el acceso a su trabajo. Mientras OpenAI, creadora de ChatGPT, ha estrenado recientemente un bot que en principio sí permitirá restringir a voluntad el rastreo de contenidos con fines de aprendizaje automático, Google y Microsoft no han indicado nada al respecto. Los dos gigantes tecnológicos están compitiendo en el ámbito de las respuestas directas y enriquecidas mediante inteligencia artificial generativa de sus servicios Bing y Bard, y hasta el momento no han habilitado nada que permita a los medios distinguir lo que pueden rastrear en función de su objetivo.

Una reciente investigación de The Washington Post concluía precisamente que compañías como Google y Meta había estado usando contenido de unos 15 millones de sitios para entrenar sus modelos de lenguaje natural a gran escala, entre ellos el de grandes medios. Y en este escenario, aún por definir a nivel legal, empiezan a producirse acercamientos como el que se ha sustanciado en un acuerdo entre OpenAI y Associated Press para que la primera use el archivo de la segunda hasta 1985. Todo ello mientras editores importantes preparan un frente común del que el propio The New York Times se habría descolgado, según informa Semafor.