Investigadores desarrollan modelo de IA que permite retirar datos tras el entrenamiento
El Instituto Allen para IA (AI2) crea FlexOlmo, un modelo que preserva el control de los propietarios de datos. La innovación desafía el paradigma actual donde las grandes empresas absorben información sin permiso. El sistema permite extraer datos contribuidos, incluso después de su uso en entrenamiento.
«Tener el pastel y recuperar los huevos»
El modelo FlexOlmo, basado en una arquitectura de «mezcla de expertos», permite a los propietarios de datos entrenar submodelos independientes sin ceder la información original. «Los dueños pueden retirarse del sistema sin dañar el modelo final», explica Ali Farhadi, CEO de AI2. La técnica fusiona estos submodelos mediante un esquema innovador de representación de valores.
Ventajas clave
En pruebas, FlexOlmo (37.000 millones de parámetros) superó en un 10% a otros métodos de fusión de modelos. Editores o empresas podrían contribuir datos y retirarlos luego por disputas legales o cambios de política. «El entrenamiento es completamente asincrónico», destaca Sewon Min, líder técnica del proyecto.
Un giro en el debate sobre propiedad de datos
El enfoque surge cuando editoriales y autores demandan a gigantes tecnológicos por usar sus contenidos sin compensación. En junio, Meta ganó un caso clave sobre uso de libros protegidos. FlexOlmo podría facilitar acuerdos con dueños de datos sensibles, aunque sus creadores advierten que aún se necesitan técnicas como privacidad diferencial para evitar filtraciones.
Rompiendo la caja negra
Percy Liang, investigador de Stanford, valora que el modelo desafía la opacidad de los sistemas actuales. «Ofrece control modular sobre los datos sin reentrenar», señala. La industria de IA enfrenta presiones para transparentar cómo se construyen los modelos y qué datos los alimentan.
Hacia modelos colaborativos y controlados
FlexOlmo abre la puerta a modelos abiertos desarrollados conjuntamente, donde los propietarios mantienen privacidad y derechos. Min subraya que «los datos son el cuello de botella para modelos de última generación». La solución podría equilibrar innovación y protección en un mercado legalmente complejo.