OpenAI afirma que el GPT-5 iguala a humanos en diversas profesiones

OpenAI anuncia que su modelo GPT-5 iguala o supera a expertos humanos en el 40.6% de las tareas evaluadas en el nuevo benchmark GDPval. La prueba analiza ocupaciones con alto impacto económico, aunque admite limitaciones en la variedad de labores reales probadas.
TechCrunch
Logotipo de OpenAI sobre un fondo abstracto. / sompong_tom / Getty Images / TechCrunch
Logotipo de OpenAI sobre un fondo abstracto. / sompong_tom / Getty Images / TechCrunch

OpenAI afirma que GPT-5 iguala a humanos en diversos trabajos

GPT-5 fue considerado mejor o igual que expertos humanos en el 40,6% de las tareas en una nueva prueba comparativa. OpenAI presentó el jueves el benchmark GDPval para medir el rendimiento de sus modelos de IA frente a profesionales en ocupaciones con alto impacto económico.

Evaluación del rendimiento en el trabajo

El benchmark GDPval se basa en nueve industrias que más contribuyen al PIB de EE. UU., como sanidad y finanzas. Evalúa 44 ocupaciones, desde ingenieros de software hasta enfermeros. La prueba consistió en que profesionales experimentados compararan informes generados por IA con los hechos por humanos. OpenAI promedia el ‘porcentaje de victoria’ de un modelo de IA frente a los informes humanos en todas las ocupaciones.

Resultados de los modelos

La versión GPT-5-high igualó o superó a expertos de la industria en el 40,6% de los casos. El modelo Claude Opus 4.1 de Anthropic lo hizo en el 49% de las tareas. OpenAI sugiere que el alto resultado de Claude podría deberse a su tendencia a crear gráficos atractivos, no solo a su rendimiento bruto.

Limitaciones y proyección futura

OpenAI admite que GDPval-v0 prueba un número muy limitado de tareas laborales reales. La prueba actual se centra en la presentación de informes, pero los profesionales realizan muchas más actividades. La empresa planea crear pruebas más robustas en el futuro que abarquen más industrias y flujos de trabajo interactivos.

Un salto significativo en capacidades

El economista jefe de OpenAI, Dr. Aaron Chatterji, indica que estos resultados permiten a los trabajadores descargar tareas en la IA para centrarse en labores de mayor valor. Tejal Patwardhan, responsable de evaluaciones, destaca el progreso: GPT-4o obtuvo un 13,7% hace 15 meses, mientras que GPT-5 casi triplica esa cifra.

El contexto de los benchmarks de IA

El sector tecnológico utiliza varios benchmarks, como AIME 2025 o GPQA Diamond, para medir el progreso de la IA. Muchos modelos están cerca de la saturación en algunas de estas pruebas, lo que genera la necesidad de evaluaciones más prácticas. Benchmarks como GDPval podrían ganar importancia para medir la competencia de la IA en tareas del mundo real.

Implicaciones para el mercado laboral

OpenAI ve el progreso en GDPval como notable, aunque se necesita una versión más comprehensiva para afirmar que sus modelos superan a los humanos. La compañía enfatiza el potencial de la IA para aumentar la productividad en una amplia gama de sectores económicos, alineándose con su misión de desarrollar inteligencia artificial general (AGI).

Una venture capitalist apuesta por la computación cuántica frente a la IA

Inspired Capital, con 1.000 millones en activos, invierte en la startup Logiqal para desarrollar el
Alexa von Tobel, socia fundadora de Inspired Capital. / Información de autor no disponible / WIRED

Amazon pagará 2500 millones de dólares para resolver demanda de la FTC

Amazon abonará 2.500 millones de dólares para resolver una demanda de la FTC por usar
Logotipo de Amazon en un fondo oscuro / Kevin Carter; Getty Images / WIRED

Anthropic pagará 1500 millones a autores por usar sus libros en IA

Anthropic acuerda un fondo de indemnización de 1500 millones de dólares para compensar a autores
Dario Amodei, cofundador y director ejecutivo de Anthropic. / Stefan Wermuth; Getty Images / WIRED

Kimmel suspendido en afiliadas de ABC tras polémica por chiste político

Sinclair y Nexstar, dos grandes propietarios de afiliadas, han retirado el programa de Jimmy Kimmel
Jimmy Kimmel en el set de su programa. / Randy Holmes; Getty Images / WIRED

Aerolíneas expanden vuelos de negocios a África, Brasil y Corea del Sur

El resurgimiento de los viajes de negocios presenciales motiva a aerolíneas como Delta, United y
Imagen sin título / Alex Green / Condé Nast Traveler / WIRED

Charlie Kirk asesinado en un tiroteo en la Universidad del Valle de Utah

Videos gráficos del tiroteo a Charlie Kirk circularon en TikTok, Instagram y X sin advertencias
Charlie Kirk en un acto público (archivo) / Trent Nelson/Getty Images / WIRED

China investiga a fabricantes de chips de EE.UU. como arma comercial

China inicia investigaciones por dumping y antimonopolio contra fabricantes estadounidenses de semiconductores. Estas acciones, coincidentes
Ilustración de chips semiconductores / Información de autor no disponible / WIRED

Trump anuncia tarifa de 100.000 dólares para visas H-1B, causando caos tecnológico

Donald Trump firma una proclamación que restringe la entrada a titulares de visados H-1B exigiendo
Fotografía de archivo de un avión en la pista de un aeropuerto. / Alexander W Helin/ Getty Images / WIRED

Google despide a más de 200 contratistas de IA en medio de conflicto laboral

Google despide a más de 200 contratistas que trabajaban en productos de IA como Gemini.
Trabajadores entran en un edificio de la sede de Google en Mountain View, California. / Justin Sullivan; Getty Images / WIRED

CEO de Nvidia elogia generador de imágenes IA de Google en Londres

Nvidia anuncia una inversión de 683 millones de euros en centros de datos en el
Jensen Huang, CEO de Nvidia / Información de autor no disponible / WIRED

Louisiana concede a Meta una exención fiscal para su centro de datos

Louisiana aprueba plantas de gas y exenciones fiscales para el centro de datos de Meta.
Mark Zuckerberg, director ejecutivo de Meta Platforms Inc. / Saul Loeb; Getty Images / WIRED

Filtraciones revelan el funcionamiento empresarial de la censura china

Documentos internos filtrados de las empresas chinas Geedge Networks y GoLaxy exponen su modelo comercial
Ilustración sobre sistemas de vigilancia digital / WIRED Staff; Getty Images / WIRED