OpenAI ha revelado o3, el sucesor del modelo de razonamiento o1 lanzado a principios de este año. El modelo o3 viene junto a una versión más pequeña llamada o3-mini y ha sido diseñado para tareas específicas. Según OpenAI, o3 podría incluso acercarse a la «inteligencia general artificial» (AGI) en ciertas condiciones, aunque con varias advertencias importantes.
Razones para el nombre y disponibilidad
El CEO de OpenAI, Sam Altman, explicó que decidieron llamar al modelo o3 y no o2 para evitar conflictos con la marca de la empresa británica de telecomunicaciones O2. Actualmente, o3 y o3-mini no están ampliamente disponibles, aunque los investigadores de seguridad pueden inscribirse para probar o3-mini a partir de hoy.
Características y limitaciones del o3
O3 es un modelo de razonamiento, lo que significa que tiene la capacidad de revisar sus propios hechos y evitar errores comunes en los modelos de inteligencia artificial. Sin embargo, esto provoca una latencia, haciendo que o3 tarde un poco más en llegar a soluciones comparado con los modelos convencionales. Este modelo fue entrenado para «pensar» antes de responder y ofrece un razonamiento más confiable en áreas como la física, la ciencia y la matemática.
Impacto en el camino hacia la AGI
OpenAI sugiere que o3 podría estar más cerca de alcanzar el AGI, que es la capacidad de un sistema de realizar cualquier tarea que un humano pueda lograr. Según el benchmark ARC-AGI, o3 logró una puntuación del 87.5% en un entorno de alta capacidad computacional, un salto significativo en comparación con su predecesor o1.
Rendimiento en pruebas y comparación con otros modelos
El o3 supera a muchos de sus competidores en diferentes pruebas y evaluaciones. En SWE-Bench Verified, un estándar de tareas de programación, el modelo supera a o1 por 22.8 puntos porcentuales. Además, alcanza un 96.7% en el Examen Invitational Americano de Matemáticas de 2024 y establece un nuevo récord en el benchmark Frontier Math de EpochAI.
Tendencias en modelos de razonamiento
Desde que OpenAI lanzó su primera serie de modelos de razonamiento, muchas otras empresas, como Google y la firma de investigación DeepSeek, han lanzado sus propios modelos. Esto muestra una búsqueda creciente de nuevos métodos para refinar la inteligencia artificial generativa.