Silicon Valley apuesta por entornos de simulación para entrenar agentes de IA

Los laboratorios de IA demandan simulaciones complejas para entrenar agentes autónomos mediante aprendizaje por refuerzo, con inversiones millonarias y competencia entre startups especializadas.
TechCrunch
Imagen sin título / Información de autor no disponible / Información de la fuente de la imagen no disponible
Imagen sin título / Información de autor no disponible / Información de la fuente de la imagen no disponible

Silicon Valley apuesta por entornos de simulación para entrenar agentes de IA

Los grandes laboratorios de IA demandan entornos de aprendizaje por refuerzo (RL) para desarrollar agentes autónomos más robustos. Startups y empresas de etiquetado de datos compiten por suministrar estos sistemas.

La nueva frontera del entrenamiento de IA

Los entornos RL son simulaciones que replican aplicaciones de software reales para que los agentes de IA practiquen tareas complejas. Se califica su desempeño y se les envía una señal de recompensa al tener éxito. Construirlos es más complejo que un conjunto de datos estático.

Actores clave y movimientos estratégicos

Empresas consolidadas como Surge y Mercor destinan recursos a desarrollar entornos RL. Scale AI, aunque ha perdido terreno, intenta adaptarse. Nuevos participantes como Mechanize Work se centran exclusivamente en este campo, ofreciendo salarios muy altos a ingenieros. Prime Intellect apuesta por hacerlos accesibles para desarrolladores más pequeños.

Inversión y repercusión en la industria

La demanda ha aumentado significativamente. Según The Information, Anthropic ha debatido invertir más de 1000 millones de dólares en entornos RL el próximo año. Surge, que facturó 1200 millones el año pasado, creó una nueva organización interna para ello.

Antecedentes de la técnica

El uso de entornos RL tiene precedentes. OpenAI construyó «RL Gyms» en 2016. Ese mismo año, el sistema AlphaGo de Google DeepMind usó técnicas RL en un entorno simulado para ganar al Go. Lo único ahora es que se aplica a modelos de transformadores para crear agentes de uso general.

¿Escalará la técnica?

La incógnita es si los entornos RL escalarán como otros métodos. Aunque han impulsado avances recientes como los modelos o1 de OpenAI y Claude Opus 4 de Anthropic, existen escepticismos. Expertos advierten de problemas como el «reward hacking», donde la IA hace trampas para la recompensa, y la gran dificultad para escalar estos sistemas de forma efectiva.

Países podrían derogar leyes de bloqueo digital como respuesta a aranceles de EE.UU.

En 2026, la derogación de leyes anticircunvención permitiría a países responder a los aranceles de
Ilustración conceptual sobre comercio y tecnología.

Bernardo Quintero descubre al creador anónimo del ‘Virus Málaga’ tras 33 años

Bernardo Quintero, fundador de VirusTotal, localizó al autor del ‘Virus Málaga’ de 1992, Antonio Enrique
Imagen sin título

Aplicaciones de bloqueo de distracciones para impulsar la productividad en 2025

Herramientas como Freedom, Cold Turkey, Opal y Forest permiten bloquear webs y apps, programar sesiones
Imagen sin título

Nvidia licencia tecnología de Groq y contrata a su CEO en un acuerdo multimillonario

Nvidia ha acordado una licencia no exclusiva de la tecnología de chips de IA de
Imagen sin título

Protestas contra centros de datos se extienden por EE.UU. por impacto ambiental y en la factura eléctrica

Grupos ciudadanos en 24 estados han bloqueado o retrasado proyectos de centros de datos valorados
Imagen sin título

El mercado europeo de startups no se recupera de la crisis de capital riesgo

La inversión en startups europeas en 2025 igualará, pero no superará, los niveles de 2023
Asistentes en la conferencia Slush en Helsinki.

Waymo prueba a Gemini como asistente de IA en sus robotaxis

Waymo prueba la integración de Gemini, el chatbot de Google, como asistente de IA en
Imagen sin título

Waymo actualiza su software tras atasco de robotaxis en apagón de San Francisco

Waymo enviará una actualización de software para que sus vehículos autónomos actúen con más decisión
Imagen sin título

Italia ordena a Meta suspender la política que prohíbe chatbots rivales en WhatsApp

La autoridad antimonopolio italiana ordena a Meta suspender su política que bloquea chatbots de IA
Imagen sin título

Apple invierte 30 millones en academia de desarrollo en Detroit con resultados desiguales

La Apple Developer Academy en Detroit ha formado a 1.700 alumnos con una inversión de
Fotografía ilustrativa de un desarrollador trabajando en un iPhone.

Usuarios de Pinterest denuncian la saturación de contenido generado por IA

Usuarios denuncian la proliferación de contenido de baja calidad generado por IA, denominado «AI slop»,
Imagen representativa de una interfaz de usuario en una pantalla.

Autores, incluido John Carreyrou, demandan a seis gigantes de la IA por uso de libros

Un grupo de escritores, incluido John Carreyrou, demanda a seis grandes tecnológicas por entrenar sus
Imagen sin título