OpenAI identifica causa de alucinaciones en IA por incentivos erróneos

Un estudio de OpenAI revela que las alucinaciones en modelos de lenguaje se deben a sistemas de evaluación que premian conjeturas en lugar de incertidumbre bien fundamentada.
TechCrunch
Ilustración conceptual de inteligencia artificial y lenguaje Silas Stein / picture alliance / Getty Images / TechCrunch
Ilustración conceptual de inteligencia artificial y lenguaje Silas Stein / picture alliance / Getty Images / TechCrunch

OpenAI identifica incentivos erróneos como causa de las alucinaciones en IA

Un nuevo artículo de investigación atribuye el problema a los sistemas de evaluación actuales. Los modelos de lenguaje como GPT-5 generan a veces afirmaciones falsas pero plausibles. La compañía sugiere cambiar los métodos de puntuación para desincentivar las conjeturas.

El problema de la confianza errónea

OpenAI define las alucinaciones como “afirmaciones plausibles pero falsas generadas por los modelos de lenguaje”. A pesar de las mejoras, reconoce que estas “siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje” y que nunca se eliminarán por completo. Para ilustrarlo, los investigadores preguntaron a un chatbot sobre la disertación de Ph.D. de Adam Tauman Kalai y obtuvieron tres respuestas diferentes, todas incorrectas.

Origen durante el pretraining

El estudio sugiere que las alucinaciones surgen, en parte, de un proceso de pretraining que se centra en predecir la siguiente palabra correcta, sin etiquetas de veracidad. “El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximar la distribución general”. Hechos arbitrarios de baja frecuencia, como el cumpleaños de una mascota, no se pueden predecir solo con patrones.

Recompensar la incertidumbre, no la suerte

La solución propuesta se centra en cómo se evalúan los modelos. El documento argumenta que las evaluaciones actuales “establecen los incentivos erróneos”. Se comparan con exámenes de opción múltiple donde adivinar puede dar suerte, mientras que dejar la respuesta en blanco garantiza un cero. Así, “cuando los modelos se califican solo por precisión, se les anima a adivinar”.

Un nuevo sistema de puntuación

La propuesta es similar a tests como el SAT, que incluyen “puntuación negativa por respuestas erróneas o crédito parcial por dejar preguntas en blanco para disuadir las conjeturas”. Las evaluaciones deben penalizar más los errores confiados que la incertidumbre y dar crédito parcial por expresar duda apropiadamente. No basta con introducir algunas pruebas nuevas; los sistemas de evaluación ampliamente usados deben actualizarse.

Un desafío inherente a la tecnología

Las alucinaciones son un problema reconocido y persistente en el desarrollo de la Inteligencia Artificial. El proceso de pretraining, aunque eficaz para generar lenguaje fluido, no discrimina intrínsecamente entre lo verdadero y lo falso para hechos específicos y poco comunes. Esto establece una limitación estructural en la tecnología actual.

El camino a seguir: incentivos más inteligentes

La eficacia futura de los modelos de lenguaje dependerá de la implementación de sistemas de evaluación que recompensen la honestidad sobre la precisión a toda costa. Si las puntuaciones principales siguen premiando las conjeturas afortunadas, los modelos seguirán aprendiendo a adivinar, perpetuando el problema de las alucinaciones.

Adobe lanza Adobe AI Foundry para crear modelos de IA generativa personalizados

Adobe lanza AI Foundry, un servicio que permite a las empresas crear modelos de IA
Imagen sin título

Anthropic lanza Claude Code en la web para suscriptores de pago

Anthropic lanza Claude Code en la web para suscriptores Pro y Max. La herramienta, que
Imagen sin título

Anthropic y EE.UU. desarrollan un filtro para impedir que su IA ayude a crear armas nucleares

Anthropic, en colaboración con el Departamento de Energía de EEUU, ha desarrollado un clasificador para
Ilustración sobre inteligencia artificial y seguridad nuclear.

TechCrunch Disrupt 2025 se celebrará en San Francisco del 27 al 29 de octubre

El evento TechCrunch Disrupt 2025 inicia el 27 de octubre en San Francisco, reuniendo a
Asistentes a una edición anterior del evento TechCrunch Disrupt.

La FTC elimina publicaciones de la era Lina Khan sobre riesgos de la IA

La FTC retira tres publicaciones de su blog que alertaban sobre los peligros de la
Imagen sin título

Google cierra oficinas en Nueva York por infestación de chinches

Google ha cerrado temporalmente su campus de Chelsea en Nueva York tras detectarse una infestación
Oficina de Google en el bajo Manhattan

TechCrunch Disrupt 2025 inicia su cuenta atrás con oferta de última hora

TechCrunch Disrupt 2025 ofrece un 60% de descuento en una segunda entrada hasta el inicio
Asistentes en una edición anterior de TechCrunch Disrupt

Meta AI duplica usuarios diarios tras el lanzamiento de su feed de vídeos Vibes

Meta AI alcanza 2,7 millones de usuarios diarios tras lanzar Vibes, su feed de vídeos
Gráfico de usuarios diarios de Meta AI proporcionado por Similarweb

Satélites Filtran Comunicaciones Militares y Corporativas a Nivel Global

Investigadores interceptaron comunicaciones de satélites con equipos de bajo coste, recogiendo datos sensibles de infraestructuras
Ilustración de satélites orbitando la Tierra

OpenEvidence recauda 200 millones de dólares con una valoración de 6.000 millones

La startup de IA médica OpenEvidence ha recaudado 200 millones de dólares, alcanzando una valoración
Logotipo de OpenEvidence

Bill Atkinson, pionero de Apple, fue defensor secreto de la «molécula de Dios»

Bill Atkinson, pionero de Apple, defendió el uso de dosis reducidas de 5-MeO-DMT bajo el
Bill Atkinson, pionero de Apple y defensor del 5-MeO-DMT

La FTC elimina publicaciones sobre IA de la era de Lina Khan

La FTC de EE.UU. ha eliminado varias entradas de blog sobre inteligencia artificial publicadas durante
Lina Khan, expresidenta de la FTC, testificando ante el Congreso en 2024.