Lanzan RSL, nuevo protocolo para licencias de datos de IA
Un grupo de tecnólogos y editores web ha creado el sistema Real Simple Licensing (RSL) para permitir la licencia de datos de entrenamiento de IA a gran escala. Esto surge tras el acuerdo de copyright de 1.500 millones de dólares de Anthropic y con hasta 40 casos pendientes por daños por datos sin licencia.
Una infraestructura técnica y legal
El protocolo RSL permite a los editores establecer términos de licencia específicos para su contenido, que se incluyen en su archivo «robots.txt». Legalmente, se ha establecido la RSL Collective, una organización de licencias colectivas que negocia términos y recauda regalías, con un modelo similar al de ASCAP para músicos.
Desafíos de implementación
Un obstáculo importante es determinar cuándo se deben regalías por un dato de entrenamiento concreto, ya que puede ser casi imposible confirmar si un documento fue ingerido por un modelo de lenguaje grande (LLM). Los creadores de RSL creen que las empresas de IA podrán gestionar esta dificultad.
El apoyo editorial y la gran incógnita
Editores importantes como Yahoo, Reddit y The Daily Beast ya se han unido al colectivo. La pregunta clave es si las principales compañías de IA, acostumbradas a obtener datos web de forma gratuita, adoptarán este sistema de licencias de pago.
Antecedentes inmediatos
El lanzamiento se produce después del acuerdo de copyright de 1.500 millones de dólares de Anthropic, con numerosas demandas pendientes que buscan daños por el uso de datos sin licencia para entrenar modelos de IA.
Implicaciones para el sector
La adopción generalizada de RSL podría establecer un marco legal y técnico para el licenciamiento de datos, potencialmente evitando un alud de demandas por derechos de autor y cambiando fundamentalmente cómo la industria de la IA obtiene sus datos de entrenamiento.