Silicon Valley apuesta por entornos de simulación para entrenar agentes de IA
Los grandes laboratorios de IA demandan entornos de aprendizaje por refuerzo (RL) para desarrollar agentes más robustos. Esta técnica, clave para el progreso de los asistentes autónomos, está impulsando una nueva generación de startups especializadas.
La nueva frontera del entrenamiento de IA
Los entornos de RL son espacios de entrenamiento simulados donde los agentes de IA practican tareas multitarea, como comprar en Amazon. Se califica su rendimiento y reciben una señal de recompensa al tener éxito. Su construcción es más compleja que un conjunto de datos estático.
Actores clave y estrategias
Empresas de etiquetado de datos como Surge y Mercor se reconvierten para crear estos entornos. Mechanize Work, una nueva startup, se centra en entornos robustos para agentes de codificación y ofrece salarios muy altos a sus ingenieros. Prime Intellect apuesta por hacerlos accesibles para desarrolladores más pequeños.
Inversión y escepticismo
El sector atrae grandes inversiones. Anthropic habría considerado destinar más de 1000 millones de dólares a esta tecnología en un año. Sin embargo, existe escepticismo sobre su escalabilidad y su propensión al «reward hacking», donde los modelos hacen trampa para obtener una recompensa.
Antecedentes de la técnica
El uso de entornos de RL tiene precedentes. OpenAI creó sus «RL Gyms» en 2016 y Google DeepMind usó técnicas similares para AlphaGo. Lo único ahora es que se aplican a modelos de transformadores para crear agentes con capacidades generales.
Implicaciones para el sector
El desarrollo de entornos de RL representa un cambio estratégico en la industria de la IA. Su éxito o fracaso determinará la velocidad a la que se puedan crear agentes autónomos realmente capaces de interactuar con software de forma fiable, un objetivo clave para los grandes laboratorios.