Demanda colectiva acusa a Adobe de usar libros pirateados para entrenar su IA
La demanda alega que Adobe usó el conjunto de datos Books3, con obras protegidas, para entrenar su modelo SlimLM. La denuncia, presentada en nombre de la autora Elizabeth Lyon, señala que la empresa utilizó material sin la autorización de los titulares de los derechos.
Los detalles de la acusación contra la tecnológica
La demanda colectiva propuesta afirma que Adobe empleó versiones pirateadas de numerosos libros para el entrenamiento de su programa SlimLM. Este modelo lingüístico está optimizado para tareas de asistencia con documentos en dispositivos móviles. Según la denuncia, el entrenamiento partió del conjunto de datos SlimPajama-627B, publicado por Cerebras.
El origen del conjunto de datos cuestionado
La autora Elizabeth Lyon sostiene que sus obras están incluidas en un subconjunto procesado de Books3. La demanda explica que SlimPajama se creó copiando y manipulando el conjunto de datos RedPajama, que a su vez contiene Books3. Por lo tanto, SlimPajama incluiría las obras con derechos de autor de la demandante y otros miembros de la clase.
Un precedente legal en expansión
El caso se enmarca en una serie de litigios similares contra grandes tecnológicas. Books3 y RedPajama han sido citados en múltiples demandas. En septiembre, una acción legal contra Apple y otra en octubre contra Salesforce presentaron acusaciones equivalentes por el uso de material con derechos de autor para entrenar sus modelos de IA.
La repercusión en la industria tecnológica
Estas demandas se han vuelto frecuentes para el sector. Los algoritmos de IA se entrenan con conjuntos de datos masivos que, en ocasiones, supuestamente incluyen material pirateado. Un acuerdo relevante ocurrió en septiembre, cuando Anthropic aceptó pagar 1.500 millones de dólares a un grupo de autores por un caso similar relacionado con su chatbot Claude.
Antecedentes: El conjunto de datos Books3 en el punto de mira
Books3 es una colección de 191.000 libros que se ha utilizado para entrenar sistemas de IA generativa. Ha sido una fuente constante de problemas legales para la comunidad tecnológica, apareciendo en numerosos litigios por el uso de material protegido sin consentimiento, crédito o compensación.
Cierre: Implicaciones para el entrenamiento de IA
La demanda contra Adobe representa un caso más en las batallas legales sobre el uso de material con derechos de autor para el entrenamiento de modelos de inteligencia artificial. El resultado de estos litigios podría definir los límites legales de la recopilación de datos para el desarrollo de IA.