Lanzan nuevo protocolo para licenciar datos de IA tras acuerdos millonarios
El sistema RSL permite acuerdos de licencia legibles por máquina para contenidos web. Surge tras el acuerdo de 1.500 millones de dólares de Anthropic por derechos de autor. Grandes editores web como Reddit y Yahoo ya lo respaldan.
Una solución para un problema en expansión
Un grupo de tecnólogos y editores web ha lanzado el sistema Real Simple Licensing (RSL) para permitir el licenciamiento de datos a gran escala. Esto se produce en un contexto donde la industria de la IA se enfrenta a hasta 40 casos pendientes por daños por datos no licenciados, lo que podría desencadenar una avalancha de demandas por derechos de autor.
El mecanismo técnico y legal
El Protocolo RSL establece términos de licencia específicos que un editor puede establecer para su contenido. Los sitios web participantes incluirán estos términos en su archivo «robots.txt» en un formato preestablecido. Paralelamente, se ha creado una organización de licencias colectivas, el RSL Collective, que puede negociar términos y recaudar regalías, actuando como un punto único de contacto.
El respaldo de la industria
Una serie de grandes editores web se han unido al colectivo, incluyendo a Yahoo, Reddit, Medium y The Daily Beast. Otros, como Quora y Fastly, apoyan el estándar sin unirse formalmente. Reddit, que ya tiene acuerdos de licencia por unos 60 millones de dólares anuales con Google, forma parte de la iniciativa.
Un terreno minado por desafíos técnicos
Uno de los mayores obstáculos es determinar cuándo se deben pagar regalías por una pieza específica de datos de entrenamiento. Esto es más simple para productos que mantienen una atribución estricta, pero puede ser casi imposible de confirmar si el entrenamiento no se registra cuando ocurre, especialmente si los editores piden ser pagados por inferencia.
El camino por delante
El éxito del sistema RSL depende ahora de que las principales compañías de IA lo adopten. Aunque estas han pagado por datos de alta calidad, la web se ha visto tradicionalmente como una fuente de datos baratos. El equipo de RSL se apoya en declaraciones públicas de líderes de IA que pedían un sistema como este, y planea responsabilizarlos por ello.
Un cierre con la pelota en el tejado de la IA
La eficacia de RSL se medirá por la voluntad de los laboratorios de IA de pagar por datos que antes obtenían gratuitamente. La iniciativa representa el primer intento serio de crear una infraestructura técnica y legal para licenciar datos de entrenamiento a escala de internet, un problema que la industria debe resolver para su futuro crecimiento.