Strawberry: ¡el nuevo modelo de OpenAI es capaz de razonar!

OpenAI ha lanzado su nueva serie de modelos o1, conocida también como "Strawberry", que destaca por su capacidad de razonamiento avanzado. Estos modelos son capaces de analizar problemas paso a paso antes de responder, lo que los hace especialmente útiles en tareas complejas como matemáticas, programación y ciencias. Sin embargo, presentan ciertos desafíos, como el "reward hacking" y un rendimiento más lento en tareas de lenguaje natural. Los usuarios de ChatGPT Plus ya pueden acceder a o1-preview y o1-mini, mientras que OpenAI planea expandir el acceso en el futuro.
Lorem Ipsum
Close-up of a woman's mouth holding a strawberry near her lips. Her upper teeth are visible, as if about to bite the fruit, with vibrant colors and a retro aesthetic. The lighting is soft and dynamic, creating subtle reflections and enhancing the ethereal quality of the image, evoking a lively, energetic style.
Close-up of a woman's mouth holding a strawberry near her lips. Her upper teeth are visible, as if about to bite the fruit, with vibrant colors and a retro aesthetic. The lighting is soft and dynamic, creating subtle reflections and enhancing the ethereal quality of the image, evoking a lively, energetic style.

OpenAI, líder en el desarrollo de inteligencia artificial, ha dado un paso gigante con el lanzamiento de su nueva serie de modelos «o1«. Esta innovadora línea de IA promete transformar la manera en que las máquinas abordan problemas complejos, especialmente en campos como la ciencia, la programación y las matemáticas.

OpenAI anunció la versión preliminar el jueves en una publicación de su blog, diciendo que estará disponible en ChatGPT y en la API. Puedo confirmar que tanto o1-preview como o1-mini (un modelo más “pequeño” pero más rápido) ya están disponibles en las cuentas de ChatGPT Plus. Sin embargo, los nuevos modelos aún no aparecen en las cuentas gratuitas de ChatGPT.

Este nuevo modelo, conocido tambien como «Strawberry», ha sido muy esperado por sus posibles capacidades de razonamiento similar al humano. En las semanas previas a este anuncio, el CEO de OpenAI, Sam Altman, nos había dado varias pistas con referencias humorísticas a frutas, pero también ha dejado claro en los últimos meses que la IA generativa estaba a punto de dar un salto significativo.

Fuente: X.com

Cómo Strawberry destaca en múltiples niveles

Strawberry ha establecido nuevos estándares para el razonamiento de IA mediante aprendizaje por refuerzo (reinforcement learning). A diferencia de modelos anteriores, Strawberry puede «pensar» antes de responder, generando una cadena interna de razonamiento. Esto le permite descomponer problemas complejos, identificar errores y aplicar nuevas estrategias. OpenAI ha revelado que la capacidad del modelo para mejorar su razonamiento aumenta con más entrenamiento y mayor potencia computacional, tanto en la fase de aprendizaje como al procesar respuestas.

El rendimiento de Strawberry en tareas de razonamiento es impresionante. En pruebas como las clasificatorias de la Olimpiada de Matemáticas de EE. UU. (AIME), se ubicó entre los 500 mejores estudiantes a nivel nacional, resolviendo el 74% de los problemas, en comparación con el 12% de precisión de GPT-4o, su predecesor.

La mejora de Strawberry sobre modelos anteriores es evidente en varios indicadores. Superó significativamente a GPT-4o en 54 de 57 categorías en el test MMLU (Massive Multitask Language Understanding), capacidades de comprensión y razonamiento de los modelos de lenguaje en una amplia variedad de temas.

OpenAI también destaca sus capacidades de razonamiento, que lo hacen especialmente bueno en tareas complejas de matemáticas y programación. Además, superó a expertos humanos con doctorado en un test de inteligencia avanzado sobre biología, física y química. Estos resultados indican que Strawberry ha elevado el razonamiento de la IA a un nivel experto en áreas especializadas.

Cómo funciona

El avance clave de Strawberry radica en su razonamiento basado en una “cadena de pensamiento”. Este enfoque permite que la IA analice los problemas paso a paso antes de proporcionar una respuesta, imitando el proceso humano al enfrentar preguntas complejas. A través del aprendizaje por refuerzo, Strawberry aprende a descomponer tareas difíciles en partes más manejables y a ajustar sus estrategias cuando se enfrenta a nuevos desafíos.

Aunque la «cadena de pensamiento» de Strawberry es una característica poderosa, también presenta ciertos desafíos. OpenAI ha señalado que este sistema puede derivar en «reward hacking«, donde el modelo identifica atajos no deseados para obtener mejores resultados, sacrificando la precisión o desviándose de su propósito. Además, aunque su capacidad de razonamiento mejora la seguridad en algunos contextos al prevenir sesgos o resultados dañinos, persisten preocupaciones sobre cómo toma decisiones internamente. Para mitigar riesgos, OpenAI ha optado por no revelar a los usuarios toda la cadena de pensamiento del modelo, manteniendo partes del proceso de razonamiento ocultas. Esto plantea preguntas sobre la transparencia y control en la toma de decisiones de la IA, lo que sugiere que, aunque más avanzado, el modelo aún necesita ajustes para equilibrar eficacia y seguridad.

Limitaciones

A pesar de su rendimiento innovador en tareas de razonamiento, Strawberry tiene algunas limitaciones. Aunque es el modelo preferido para tareas que requieren análisis profundo, como la interpretación de datos y la programación, no destaca tanto en tareas de lenguaje natural. Los evaluadores humanos encontraron que GPT-4o, su predecesor, superaba a Strawberry en tareas que requerían un enfoque más conversacional o intuitivo, lo que sugiere que Strawberry no es la mejor opción para todas las aplicaciones.

Esta diferencia subraya el reto de desarrollar un modelo que sobresalga en todos los ámbitos. Aunque Strawberry destaca en tareas que requieren lógica y cálculos complejos, su enfoque basado en la «cadena de pensamiento» puede hacerlo más lento o menos adaptable en situaciones donde se necesita rapidez o respuestas intuitivas.

Cómo usarlo

Los usuarios de ChatGPT Plus y Team podrán acceder a los modelos o1 desde el jueves 12 de septiembre. Tanto o1-preview como o1-mini se pueden seleccionar manualmente en el selector de modelos. Al lanzamiento, habrá un límite semanal de 30 mensajes para o1-preview y 50 para o1-mini, pero OpenAI está trabajando para aumentar estos límites y permitir que ChatGPT elija automáticamente el modelo más adecuado para cada solicitud.

OpenAI también tiene planes de ampliar el acceso al modelo o1-mini para todos los usuarios de ChatGPT Free. Esto permitirá que un mayor número de personas puedan experimentar las capacidades avanzadas de razonamiento y procesamiento de este modelo, aunque en una versión más ligera y económica.

Según lo declarado por OpenAI, en un futuro cercano se espera agregar también funciones como navegación, carga de archivos e imágenes para hacer que los modelos sean más útiles para todos. Además, planean continuar desarrollando y lanzando modelos de la serie GPT, así como la nueva serie OpenAI o1.

Reflexiones Finales

OpenAI continúa empujando los límites de lo que es posible, ofreciendo herramientas cada vez más poderosas que pueden abordar problemas complejos con un nivel de razonamiento similar al humano. Sin embargo, este avance también trae consigo desafíos que deben ser abordados con cuidado.

Es esencial encontrar un equilibrio entre la eficiencia y la seguridad, asegurando que estas tecnologías se desarrollen de manera responsable. La transparencia en cómo las IA toman decisiones y la mitigación de riesgos como el «reward hacking» son aspectos cruciales para generar confianza entre los usuarios y la comunidad en general. Aunque Strawberry no es perfecto y no es la mejor opción para todas las aplicaciones, su desarrollo marca un paso adelante hacia sistemas más avanzados y capaces.

Si tienes una suscripción a ChatGPT, ¡debes probarlo!

Un Saludo 😉

Apple exige transparencia en apps que comparten datos con IA de terceros

Apple actualiza sus normas exigiendo que las aplicaciones revelen y obtengan consentimiento explícito antes de
Imagen sin título

Jack Dorsey financia diVine, una nueva app que recupera el archivo de Vine

Jack Dorsey respalda diVine, una nueva aplicación que recupera más de 100.000 vídeos del archivo
Captura de pantalla de la aplicación diVine

Teradar recauda 150 millones de dólares para un sensor que supera al lidar

La startup Teradar ha recaudado 150 millones de dólares en una ronda Serie B para
Matt Carey, cofundador y CEO de Teradar, demostrando el sensor.

Cursor recauda 2.300 millones de dólares en una nueva ronda de financiación

Cursor, la herramienta de IA para desarrolladores, ha recaudado 2300 millones de dólares, duplicando su
Imagen sin título

Google actualiza NotebookLM con Deep Research y más tipos de archivo

Google añade Deep Research a NotebookLM, una herramienta que automatiza investigaciones complejas. Genera informes detallados
Imagen sin título

DeepMind presenta SIMA 2, un agente de IA que razona y actúa en mundos virtuales

DeepMind presenta SIMA 2, un agente de IA que integra el modelo Gemini para razonar
Imagen sin título

LinkedIn añade búsqueda por IA para encontrar personas con lenguaje natural

LinkedIn lanza una función de búsqueda de personas con IA para usuarios premium. Permite consultas
Interfaz de la nueva búsqueda de personas por IA de LinkedIn

Apple lanza el pasaporte digital para usar en controles TSA de EE.UU.

Apple lanza Digital ID en Apple Wallet para identificarse en controles de la TSA en
Usuario mostrando la Identidad Digital de Apple en un iPhone

Google lanza nuevas herramientas de IA para revolucionar las compras navidenas

Google presenta nuevas funciones de compra con IA, incluyendo búsqueda conversacional, checkout autónomo y un
Interfaz de las nuevas herramientas de IA para compras de Google

Bindwell recauda 6 millones para diseñar pesticidas con IA

La startup Bindwell ha obtenido 6 millones de dólares en una ronda semilla para diseñar
Tyler Rose (izquierda) y Navvye Anand (derecha), cofundadores de Bindwell

Cursor recauda 2300 millones de dólares y duplica su valoración

La empresa de herramientas de desarrollo con IA Cursor ha recaudado 2.300 millones de dólares,
Imagen sin título

IA diseña experimentos físicos incomprensibles que funcionan

Un software de IA ha diseñado un interferómetro que aumenta la sensibilidad del observatorio LIGO
Rana Adhikari, físico del Caltech, empleó IA para mejorar detectores.