inteligencia artificial

The New York Times y otros grandes medios bloquean el bot de ChatGPT para impedir que rastree su contenido

| 1 SEPTIEMBRE 2023 | ACTUALIZADO: 5 SEPTIEMBRE 2023 10:37

Docenas de las webs más visitadas del mundo incluyen ahora una instrucción clara para bloquear al bot de ChatGPT. La compañía Originality.ai, que se dedica a revisar si un contenido ha sido generado mediante inteligencia artificial o ha sido plagiado mediante ella, realizó recientemente un estudio que concluyó que más del 15% de los sitios más populares de internet la han incluido en los últimos días. Y en esa lista se encuentran medios como The New York Times, CNN, Bloomberg o Reuters, que quieren evitar así la ingesta de su información para entrenar procesos o para componer material enriquecido.

Este movimiento responde a que la propia OpenAI, creadora de ChatGPT, dejó documentado hace algunos días cómo bloquear la actividad de GPTBot para evitar posibles problemas legales con los administradores de cualquier web. A partir de ahí, más de 100 sitios de los 1.000 más visitados en todo el mundo han adoptado la solución ofrecida, empezando por hasta 11 versiones localizadas de Amazon. Entre ellas está la española, que junto a las versiones locales del repositorio de fotos Alamy y la red social Pinterest son los únicos dominios .es en no permitir operar ya a ese proceso.

A diferencia de los medios estadounidenses citados anteriormente, que ya han empezado a movilizarse para presentar un frente común, los españoles que forman parte de esa lista no han restringido hasta la fecha la acción del bot de ChatGPT. En ella aparecen El País, El Mundo, El Confidencial o 20 Minutos y todos ellos mantienen GPTBot fuera de su lista “disallow” en el archivo Robots.txt, la instrucción con la que se comunica a su empresa propietaria que no puede rastrear la web a la que va asociada.

Esta es de momento la única alternativa para evitar que material bajo derechos sea utilizado en lo que News Corp distingue en tres áreas: entrenamiento de procesos, respuestas de bots conversacionales y agregación / sintetización en respuestas monetizadas por terceros. Y por ahora solo OpenAI la ha habilitado, justo en el contexto en el que The New York Times estaba evaluando llevarla a los tribunales y había cambiado sus términos legales para evitar su operativa, mientras que Google y Microsoft no ofrecen esa opción.

Más del 15% de los medios más visitados del mundo incluyen ya la instrucción habilitada por OpenAI para evitar problemas legales por utilizar contenido bajo derechos.

Esa tecnología está permitiendo que por ejemplo se creen automáticamente webs con material robado a medios con el objetivo de disputarles planificación publicitaria programática. Y eso es lo que ha motivado al Parlamento Europeo a forzar por ley a que esas compañías revelen si usan contenido protegido.