Lanzan protocolo RSL para licenciar datos de IA y evitar demandas
Reddit, Quora y Yahoo respaldan el sistema Real Simple Licensing (RSL), que permite a editores web establecer términos de licencia para sus contenidos mediante archivos «robots.txt». Surge tras el acuerdo de copyright de 1.500 millones de Anthropic.
Una solución técnica y legal para el contenido web
El protocolo RSL permite a los editores establecer condiciones de licencia para su contenido, ya sea mediante acuerdos personalizados o usando licencias Creative Commons. La información se incluye en el archivo «robots.txt» en un formato preestablecido, lo que facilita la identificación de los términos aplicables a cada dato.
Negociación colectiva de derechos
El RSL Collective actúa como organización de gestión de derechos, similar a ASCAP en música. Negocia términos y recauda regalías, ofreciendo un punto único de contacto tanto para las empresas de IA como para los titulares de derechos. Editores como Yahoo, Medium y The Daily Beast ya se han unido.
Desafíos en la implementación
Determinar cuándo se deben regalías por un dato de entrenamiento concreto es complejo. Es sencillo en productos con atribución estricta, como los Abstracts de Búsqueda IA de Google, pero casi imposible si el entrenamiento no se registra. Los creadores de RSL confían en que las empresas puedan reportarlo.
La industria se enfrenta a un problema de datos
Existen más de 40 demandas pendientes por el uso de datos sin licencia, incluyendo una contra Midjourney por generar imágenes de Superman. Sin un sistema de licencias, las empresas de IA podrían enfrentar una avalancha de pleitos por derechos de autor.
La adopción por parte de los laboratorios de IA, en duda
La gran incógnita es si las empresas de IA adoptarán RSL. Están acostumbradas a obtener datos web de forma gratuita, como el Common Crawl. Sus creadores, sin embargo, se aferran a declaraciones públicas de líderes del sector, como Sundar Pichai, pidiendo un sistema así.
Antecedentes inmediatos
El lanzamiento se produce tras el acuerdo de copyright de 1.500 millones de dólares alcanzado por Anthropic, un hecho que ha obligado a la industria de la IA a reconocer su problema con los datos de entrenamiento.
Implicaciones para el sector
La implementación exitosa del protocolo RSL podría establecer un marco legal y técnico escalable para el licenciamiento de datos, potencialmente reduciendo la litigiosidad futura y creando un nuevo flujo de ingresos para los editores de contenidos web.