DeepMind presenta Genie 3, un modelo para avanzar hacia la inteligencia artificial general
El nuevo sistema genera mundos interactivos en 3D para entrenar agentes de IA. La herramienta, aún en fase de investigación, mejora la consistencia física y la duración de las simulaciones respecto a su predecesor. Google DeepMind afirma que es un paso clave hacia la AGI.
«Un salto en la simulación de entornos reales»
Genie 3 permite crear mundos interactivos en 720p y 24 fps durante varios minutos, superando los 10-20 segundos de Genie 2. Según Shlomi Fruchter, director de investigación de DeepMind, «es el primer modelo de mundo generalista en tiempo real», capaz de generar desde escenarios fotorealistas hasta imaginarios. Su memoria auto-regresiva mantiene la coherencia física, imitando el razonamiento humano.
Entrenamiento para agentes multiusos
DeepMind destaca su potencial para formar agentes como SIMA, que ya ha completado tareas complejas en entornos simulados, como «acercarse a una compactadora verde». Jack Parker-Holder, científico del equipo, subraya que «los modelos de mundo son clave para la AGI», especialmente en agentes físicos que requieren simular escenarios reales.
Avances y limitaciones
El modelo aprende física por sí mismo, pero aún falla en detalles como la interacción realista de la nieve con un esquiador. Otras restricciones incluyen interacciones limitadas entre agentes y simulaciones de solo minutos, insuficientes para entrenamientos prolongados. Pese a ello, DeepMind ve en Genie 3 un avance hacia el aprendizaje autónomo, similar al humano.
De AlphaGo a la simulación del mundo real
La referencia al «Movimiento 37» de AlphaGo en 2016 marca el precedente: IA descubriendo estrategias inéditas. Parker-Holder sugiere que Genie 3 podría iniciar «una nueva era» para agentes que exploren, planifiquen y aprendan de la experiencia en entornos simulados.
Un paso más cerca, pero no la meta final
Genie 3 representa un avance técnico en la generación de entornos consistentes para IA, aunque persisten desafíos en complejidad y escalabilidad. Su aplicación en educación, gaming o prototipado creativo dependerá de cómo evolucione su capacidad para simular interacciones del mundo real.