Strawberry: ¡el nuevo modelo de OpenAI es capaz de razonar!

OpenAI ha lanzado su nueva serie de modelos o1, conocida también como "Strawberry", que destaca por su capacidad de razonamiento avanzado. Estos modelos son capaces de analizar problemas paso a paso antes de responder, lo que los hace especialmente útiles en tareas complejas como matemáticas, programación y ciencias. Sin embargo, presentan ciertos desafíos, como el "reward hacking" y un rendimiento más lento en tareas de lenguaje natural. Los usuarios de ChatGPT Plus ya pueden acceder a o1-preview y o1-mini, mientras que OpenAI planea expandir el acceso en el futuro.
Lorem Ipsum
Close-up of a woman's mouth holding a strawberry near her lips. Her upper teeth are visible, as if about to bite the fruit, with vibrant colors and a retro aesthetic. The lighting is soft and dynamic, creating subtle reflections and enhancing the ethereal quality of the image, evoking a lively, energetic style.
Close-up of a woman's mouth holding a strawberry near her lips. Her upper teeth are visible, as if about to bite the fruit, with vibrant colors and a retro aesthetic. The lighting is soft and dynamic, creating subtle reflections and enhancing the ethereal quality of the image, evoking a lively, energetic style.

OpenAI, líder en el desarrollo de inteligencia artificial, ha dado un paso gigante con el lanzamiento de su nueva serie de modelos «o1«. Esta innovadora línea de IA promete transformar la manera en que las máquinas abordan problemas complejos, especialmente en campos como la ciencia, la programación y las matemáticas.

OpenAI anunció la versión preliminar el jueves en una publicación de su blog, diciendo que estará disponible en ChatGPT y en la API. Puedo confirmar que tanto o1-preview como o1-mini (un modelo más “pequeño” pero más rápido) ya están disponibles en las cuentas de ChatGPT Plus. Sin embargo, los nuevos modelos aún no aparecen en las cuentas gratuitas de ChatGPT.

Este nuevo modelo, conocido tambien como «Strawberry», ha sido muy esperado por sus posibles capacidades de razonamiento similar al humano. En las semanas previas a este anuncio, el CEO de OpenAI, Sam Altman, nos había dado varias pistas con referencias humorísticas a frutas, pero también ha dejado claro en los últimos meses que la IA generativa estaba a punto de dar un salto significativo.

Fuente: X.com

Cómo Strawberry destaca en múltiples niveles

Strawberry ha establecido nuevos estándares para el razonamiento de IA mediante aprendizaje por refuerzo (reinforcement learning). A diferencia de modelos anteriores, Strawberry puede «pensar» antes de responder, generando una cadena interna de razonamiento. Esto le permite descomponer problemas complejos, identificar errores y aplicar nuevas estrategias. OpenAI ha revelado que la capacidad del modelo para mejorar su razonamiento aumenta con más entrenamiento y mayor potencia computacional, tanto en la fase de aprendizaje como al procesar respuestas.

El rendimiento de Strawberry en tareas de razonamiento es impresionante. En pruebas como las clasificatorias de la Olimpiada de Matemáticas de EE. UU. (AIME), se ubicó entre los 500 mejores estudiantes a nivel nacional, resolviendo el 74% de los problemas, en comparación con el 12% de precisión de GPT-4o, su predecesor.

La mejora de Strawberry sobre modelos anteriores es evidente en varios indicadores. Superó significativamente a GPT-4o en 54 de 57 categorías en el test MMLU (Massive Multitask Language Understanding), capacidades de comprensión y razonamiento de los modelos de lenguaje en una amplia variedad de temas.

OpenAI también destaca sus capacidades de razonamiento, que lo hacen especialmente bueno en tareas complejas de matemáticas y programación. Además, superó a expertos humanos con doctorado en un test de inteligencia avanzado sobre biología, física y química. Estos resultados indican que Strawberry ha elevado el razonamiento de la IA a un nivel experto en áreas especializadas.

Cómo funciona

El avance clave de Strawberry radica en su razonamiento basado en una “cadena de pensamiento”. Este enfoque permite que la IA analice los problemas paso a paso antes de proporcionar una respuesta, imitando el proceso humano al enfrentar preguntas complejas. A través del aprendizaje por refuerzo, Strawberry aprende a descomponer tareas difíciles en partes más manejables y a ajustar sus estrategias cuando se enfrenta a nuevos desafíos.

Aunque la «cadena de pensamiento» de Strawberry es una característica poderosa, también presenta ciertos desafíos. OpenAI ha señalado que este sistema puede derivar en «reward hacking«, donde el modelo identifica atajos no deseados para obtener mejores resultados, sacrificando la precisión o desviándose de su propósito. Además, aunque su capacidad de razonamiento mejora la seguridad en algunos contextos al prevenir sesgos o resultados dañinos, persisten preocupaciones sobre cómo toma decisiones internamente. Para mitigar riesgos, OpenAI ha optado por no revelar a los usuarios toda la cadena de pensamiento del modelo, manteniendo partes del proceso de razonamiento ocultas. Esto plantea preguntas sobre la transparencia y control en la toma de decisiones de la IA, lo que sugiere que, aunque más avanzado, el modelo aún necesita ajustes para equilibrar eficacia y seguridad.

Limitaciones

A pesar de su rendimiento innovador en tareas de razonamiento, Strawberry tiene algunas limitaciones. Aunque es el modelo preferido para tareas que requieren análisis profundo, como la interpretación de datos y la programación, no destaca tanto en tareas de lenguaje natural. Los evaluadores humanos encontraron que GPT-4o, su predecesor, superaba a Strawberry en tareas que requerían un enfoque más conversacional o intuitivo, lo que sugiere que Strawberry no es la mejor opción para todas las aplicaciones.

Esta diferencia subraya el reto de desarrollar un modelo que sobresalga en todos los ámbitos. Aunque Strawberry destaca en tareas que requieren lógica y cálculos complejos, su enfoque basado en la «cadena de pensamiento» puede hacerlo más lento o menos adaptable en situaciones donde se necesita rapidez o respuestas intuitivas.

Cómo usarlo

Los usuarios de ChatGPT Plus y Team podrán acceder a los modelos o1 desde el jueves 12 de septiembre. Tanto o1-preview como o1-mini se pueden seleccionar manualmente en el selector de modelos. Al lanzamiento, habrá un límite semanal de 30 mensajes para o1-preview y 50 para o1-mini, pero OpenAI está trabajando para aumentar estos límites y permitir que ChatGPT elija automáticamente el modelo más adecuado para cada solicitud.

OpenAI también tiene planes de ampliar el acceso al modelo o1-mini para todos los usuarios de ChatGPT Free. Esto permitirá que un mayor número de personas puedan experimentar las capacidades avanzadas de razonamiento y procesamiento de este modelo, aunque en una versión más ligera y económica.

Según lo declarado por OpenAI, en un futuro cercano se espera agregar también funciones como navegación, carga de archivos e imágenes para hacer que los modelos sean más útiles para todos. Además, planean continuar desarrollando y lanzando modelos de la serie GPT, así como la nueva serie OpenAI o1.

Reflexiones Finales

OpenAI continúa empujando los límites de lo que es posible, ofreciendo herramientas cada vez más poderosas que pueden abordar problemas complejos con un nivel de razonamiento similar al humano. Sin embargo, este avance también trae consigo desafíos que deben ser abordados con cuidado.

Es esencial encontrar un equilibrio entre la eficiencia y la seguridad, asegurando que estas tecnologías se desarrollen de manera responsable. La transparencia en cómo las IA toman decisiones y la mitigación de riesgos como el «reward hacking» son aspectos cruciales para generar confianza entre los usuarios y la comunidad en general. Aunque Strawberry no es perfecto y no es la mejor opción para todas las aplicaciones, su desarrollo marca un paso adelante hacia sistemas más avanzados y capaces.

Si tienes una suscripción a ChatGPT, ¡debes probarlo!

Un Saludo 😉

Sandro Dias establece dos récords mundiales al descender un rascacielos en skate

El skater brasileño Sandro Dias estableció dos récords Guinness al descender el edificio CAFF en
Sandro Dias desciende por la rampa instalada en el edificio CAFF. / Fabio Piva/Marcelo Maragni/Red Bull Content Pool / Fuente no disponible

Adolescente afgano sobrevuela viaje en el tren de aterrizaje a 36.000 pies

Un niño de 13 años sobrevivió a un vuelo de dos horas desde Kabul a
Imagen representativa del tren de aterrizaje de un avión comercial / Getty Images / PTI / The Indian Express

Alibaba anuncia acuerdo con Nvidia, expansión de centros de datos y nuevo modelo de IA

Alibaba anuncia una asociación estratégica con Nvidia para integrar Physical AI en su nube. Presenta
El logo de Alibaba en la fachada de su oficina en el distrito de Huangpu, Shanghai / Getty Images / Fuente no disponible

Amazon pagará 2500 millones por engañar a usuarios de Prime

Amazon pagará 2.500 millones de dólares a la FTC por manipular a usuarios para suscribir
Furgoneta de reparto de Amazon Prime / Wikimedia Commons / Fuente no disponible

OpenAI lanza Sora 2, una app social con cameos de IA para deepfakes consentidos

OpenAI presenta Sora 2, un modelo avanzado de generación de vídeo y audio con física
Sam Altman en un vídeo de Sora (izquierda) Interfaz de la app Sora (derecha) / Autor no disponible / Fuente no disponible

Trump anuncia acuerdo con Pfizer para reducir costos de medicamentos hasta 80%

Donald Trump anuncia un acuerdo con Pfizer para reducir el coste de medicamentos, con descuentos
Donald Trump en el Jardín Sur de la Casa Blanca. / La web oficial de la Casa Blanca / Fuente no disponible

Startups Reemplazan Primeras Contrataciones con Agentes de IA en TechCrunch Disrupt

TechCrunch Disrupt 2025 debatirá el uso de agentes de IA para automatizar funciones como ventas
Imagen sin título / Horacio Villalobos / Getty Images / TechCrunch Events

Periodic Labs recauda 300 millones para automatizar la ciencia con IA

La startup Periodic Labs, fundada por exinvestigadores de Google Brain y OpenAI, ha obtenido 300
Imagen sin título / Información de autor no disponible / TechCrunch

OpenAI lanza la app Sora, su competidor de TikTok, junto al modelo Sora 2

OpenAI presenta Sora 2, un generador de audio y video con mayor realismo físico, y
Imagen sin título / Kim Jae-Hwan/SOPA Images/LightRocket / Getty Images / TechCrunch

Granola Apps lanza función de prompts repetibles para reuniones

La aplicación de notas Granola introduce «Recetas», función que permite crear accesos directos de prompts
Imagen sin título / Información de autor no disponible / TechCrunch

Hance presenta software de audio IA en TechCrunch Disrupt 2025

La startup noruega Hance presentará en TechCrunch Disrupt 2025 su software de audio de solo
Demostración del software de audio IA de Hance / Mark Thompson / Getty Images / TechCrunch

PayPal integra Honey con ChatGPT para asistencia en compras

PayPal ha integrado su extensión Honey con ChatGPT para ofrecer recomendaciones de productos, precios en
Imagen sin título / Información de autor no disponible / TechCrunch