Silicon Valley apuesta por entornos de simulación para entrenar agentes de IA

Los grandes laboratorios de IA invierten en entornos de aprendizaje por refuerzo (RL), simulaciones complejas donde los agentes practican tareas multietapa. Startups y empresas establecidas compiten en este nuevo campo crítico para el desarrollo de asistentes autónomos.
TechCrunch
Representación conceptual de un entorno de simulación para IA / Yuichiro Chino / Getty Images / TechCrunch
Representación conceptual de un entorno de simulación para IA / Yuichiro Chino / Getty Images / TechCrunch

Silicon Valley apuesta por entornos para entrenar agentes de IA

Los grandes laboratorios de IA demandan entornos de aprendizaje por refuerzo (RL) para desarrollar agentes más robustos. Esta técnica simula espacios de trabajo donde los agentes practican tareas complejas.

La nueva frontera del entrenamiento de IA

Los entornos RL son simulaciones que replican aplicaciones de software reales. Funcionan como campos de entrenamiento donde un agente de IA es evaluado en tareas multietapa, como comprar en Amazon, y recibe una señal de recompensa al tener éxito. Su construcción es más compleja que un conjunto de datos estático.

Un campo en ebullición

Empresas establecidas como Surge y Mercor están invirtiendo en esta área. Surge creó una nueva organización interna para ello, mientras Mercor se centra en entornos para sectores específicos. Scale AI también intenta adaptarse a esta nueva demanda. Anthropic habría considerado invertir más de 1000 millones de dólares en estos entornos.

Nuevos actores se unen a la carrera

Startups como Mechanize y Prime Intellect emergen como competidores especializados. Mechanize, que ya colabora con Anthropic, ofrece altos salarios para ingenieros. Prime Intellect, respaldada por Andrej Karpathy, apuesta por un modelo de código abierto, creando un hub accesible para desarrolladores.

La incógnita del escalado

La duda principal es si esta técnica escalará como anteriores métodos de IA. Aunque el aprendizaje por refuerzo impulsó avances recientes como los modelos o1 de OpenAI y Claude Opus 4 de Anthropic, algunos expertos son escépticos. Alertan de problemas como el «reward hacking», donde el modelo hace trampas para obtener la recompusa, y la gran dificultad técnica para crear entornos eficaces.

Antecedentes de una técnica clave

El uso de entornos RL tiene precedentes, como los «RL Gyms» de OpenAI en 2016 o el sistema AlphaGo de Google DeepMind. Lo único ahora es que se aplica a modelos de transformadores para crear agentes de uso general con capacidades más amplias y complejas.

Implicaciones para el futuro de la IA

El desarrollo de estos entornos representa una evolución crítica en la formación de agentes de IA. Su éxito o fracaso determinará la capacidad de la industria para crear asistentes autónomos realmente eficaces, marcando la próxima fase de la inteligencia artificial.

Resolve AI alcanza una valoración de 1.000 millones de dólares en su Serie A

La startup Resolve AI ha logrado una valoración de 1.000 millones de dólares en una
Imagen sin título

Anysphere, creadora de Cursor, adquiere la startup de revisión de código Graphite

Anysphere, creadora de Cursor, adquiere la startup Graphite. La fusión busca combinar la generación de
Imagen sin título

Netflix adquiere Ready Player Me para impulsar su estrategia de videojuegos

Netflix ha adquirido la startup estonia Ready Player Me, especializada en avatares interoperables. La plataforma
Logotipo de Ready Player Me

Estafadores en China usan imágenes generadas por IA para obtener reembolsos fraudulentos

La policía china ha detenido a un comprador por utilizar vídeos falsificados con inteligencia artificial
Ilustración sobre estafas con IA en reembolsos de comercio electrónico.

Netflix firma acuerdos exclusivos de video con iHeartMedia y Barstool Sports

Netflix ha firmado acuerdos con iHeartMedia y Barstool Sports para obtener los derechos de vídeo
Imagen sin título

Yann LeCun confirma su startup de ‘modelo mundial’ y busca una valoración de 5.000 millones

Yann LeCun confirma el lanzamiento de AMI Labs, una startup que desarrolla ‘modelos del mundo’
Yann LeCun, científico jefe de IA de Meta y ganador del Premio Turing.

Known, la app de citas con IA de voz, recibe 9,7 millones de dólares

La startup Known ha recaudado 9,7 millones de dólares para su app de citas, que
Logotipo de la aplicación de citas Known.

OpenAI actualiza normas de seguridad para menores en ChatGPT

OpenAI actualiza su Model Spec con reglas estrictas para interacciones con adolescentes, prohibiendo juegos de
Representación de un adolescente usando un ordenador portátil.

Seis predicciones sobre el impacto y riesgos de la IA para 2026

Un análisis periodístico especula que OpenAI, cuya plantilla se quintuplicó hasta 4.500 empleados, podría realizar
Ilustración sobre predicciones de IA para 2026.

Meta desarrolla un nuevo modelo de imagen y video para 2026

Meta planea lanzar en 2026 los modelos de IA Mango, para imagen y vídeo, y
Imagen sin título

OpenAI negocia una ronda de 100.000 millones para una valoración de 830.000 millones

OpenAI negocia una ronda de financiación de hasta 100.000 millones de dólares, según el Wall
Imagen sin título

La autora de ‘Heated Rivalry’ aborda las teorías de fans y la polémica

La adaptación de la novela ‘Heated Rivalry’ se convierte en la serie original más vista
Fotograma de la serie 'Heated Rivalry'.