Lanzan RSL, nuevo protocolo para licenciar datos de entrenamiento de IA
Reddit, Quora y Yahoo respaldan el sistema RSL, que permite a editores web establecer términos de licencia para su contenido mediante archivos «robots.txt». Surge tras el acuerdo de copyright de 1.500 millones de Anthropic.
Infraestructura técnica y legal
El Protocolo RSL define los términos de licencia que un editor puede establecer para su contenido. Los sitios web incluirán estos términos en su archivo robots.txt en un formato preestablecido. Legalmente, la RSL Collective negocia términos y recauda regalías, actuando como un único punto de contacto.
Desafíos de implementación
Determinar cuándo se deben regalías por un dato de entrenamiento concreto es complejo. Es más simple para productos que obtienen datos en tiempo real y mantienen una atribución estricta. Los creadores de RSL creen que las empresas de IA pueden gestionar la dificultad para «pagar a la gente».
Adhesión de la industria
La cuestión clave es si las empresas de IA adoptarán el sistema. Tradicionalmente, la web se ha visto como una fuente de datos baratos. Los laboratorios están acostumbrados a obtener conjuntos de datos de forma gratuita, como el Common Crawl.
Antecedentes
El lanzamiento se produce tras el acuerdo de copyright de 1.500 millones de dólares de Anthropic. Existen hasta 40 casos pendientes que buscan indemnizaciones por el uso de datos sin licencia, lo que podría generar una avalancha de demandas por derechos de autor.
Implicaciones
El sistema RSL pretende establecer un estándar escalable para el licenciamiento de datos de entrenamiento de IA. Su éxito depende de que los principales laboratorios de IA se adhieran al protocolo, lo que podría redefinir las prácticas de recopilación de datos en la industria.