Lanzan protocolo RSL para licencias de datos de IA con respaldo de grandes editoras
Reddit, Quora y Yahoo respaldan el sistema Real Simple Licensing (RSL), que permite a editoras web establecer términos de licencia para datos de entrenamiento de IA mediante archivos «robots.txt». Surge tras el acuerdo de copyright de 1.500 millones de Anthropic.
Una solución técnica y legal para el contenido web
El protocolo RSL establece términos de licencia específicos que las editoras pueden incluir en sus archivos «robots.txt». Permite desde licencias personalizadas hasta el uso de provisiones Creative Commons, identificando fácilmente los datos y sus condiciones de uso.
Una entidad colectiva para negociar regalías
El RSL Collective funciona como organización de licencias colectivas, similar a ASCAP en música. Negocia términos y recauda regalías para editoras, siendo un punto único de contacto para licenciatarios y titulares de derechos.
Desafíos técnicos en el seguimiento de datos
Determinar cuándo se deben regalías por datos específicos es complejo en modelos de IA. Es más simple en productos con atribución estricta, como Google AI Search Abstracts, pero difícil si el entrenamiento no se registra.
Adhesiones y apoyo inicial al sistema
Grandes editoras como Yahoo, Reddit y Medium se han unido al colectivo. Otras como Fastly y Quora apoyan el estándar sin unirse. Reddit ya recibe 60 millones anuales de Google por sus datos.
La incógnita: la adopción por parte de las empresas de IA
El éxito depende de que los laboratorios de IA adopten el sistema, acostumbrados a obtener datos web de forma gratuita. Sus creadores confían en que es técnicamente posible y citan declaraciones de líderes del sector pidiendo un protocolo así.
Antecedentes inmediatos
El sistema surge tras el acuerdo de copyright de 1.500 millones de dólares de Anthropic y con hasta 40 casos pendientes por daños por datos no licenciados, incluyendo uno contra Midjourney por imágenes de Superman.
Implicaciones para la industria
La implementación del RSL podría establecer un marco escalable para licenciar datos de entrenamiento de IA, potentially reduciendo la avalancha de demandas por derechos de autor y creando un flujo de ingresos para editoras web. Su eficacia dependerá de la aceptación por parte de las grandes compañías de inteligencia artificial.