Lanzan nuevo protocolo para licenciar datos de IA tras acuerdos millonarios
El sistema RSL permite acuerdos de licencia legibles por máquina para toda la web. Surge tras el acuerdo de copyright de 1.500 millones de dólares de Anthropic. Grandes editores web como Reddit y Yahoo ya lo respaldan.
Una solución para un problema creciente
Un grupo de tecnólogos y editores web ha lanzado el sistema Real Simple Licensing (RSL) para permitir el licenciamiento de datos a gran escala. El cofundador Eckart Walther, quien también co-creó el estándar RSS, declaró: «Necesitamos tener acuerdos de licencia legibles por máquina para internet». Esto responde a las más de 40 demandas pendientes por daños por datos no licenciados que enfrenta la industria de la IA.
El funcionamiento técnico y legal
El Protocolo RSL establece términos de licencia específicos que un editor puede establecer para su contenido. Los sitios web participantes incluirán los términos como parte de su archivo «robots.txt». Paralelamente, se ha establecido una organización de licencias colectivas, el RSL Collective, que puede negociar términos y recaudar regalías, similar a ASCAP para músicos.
Un respaldo significativo
Una gran cantidad de editores web ya se han unido al colectivo, incluyendo Yahoo, Reddit, Medium y The Daily Beast. Otros, como Fastly y Quora, están apoyando el estándar sin unirse al colectivo. Reddit, que ya tiene acuerdos de licencia, recibe un estimado de 60 millones de dólares al año de Google por el uso de sus datos de entrenamiento.
El desafío de los royalties en la IA
Los modelos de IA plantean desafíos únicos para determinar cuándo se deben regalías por una pieza específica de datos de entrenamiento. Si el entrenamiento no se registra cuando ocurre, puede ser casi imposible confirmar que un documento fue ingerido. Doug Leeds, cofundador de RSL, afirma: «No tiene que ser perfecto. Solo tiene que ser lo suficientemente bueno para que la gente cobre».
Un panorama de disputas por datos
La industria de la IA se enfrenta a una avalancha de demandas por derechos de autor tras el acuerdo de Anthropic. Sin un sistema de licencias, estas disputas legales podrían retrasar permanentemente el desarrollo de la industria, lo que ha creado una necesidad urgente de soluciones estandarizadas.
La pelota está en el tejado de las empresas de IA
La eficacia del sistema RSL depende ahora de que las principales compañías de IA lo adopten. Aunque los laboratorios han pedido públicamente un sistema de este tipo, queda por verse si estarán dispuestos a pagar por datos que tradicionalmente han obtenido de forma gratuita. El éxito de RSL podría definir el futuro del suministro de datos para el entrenamiento de inteligencia artificial.