OpenAI identifica incentivos erróneos como causa de las alucinaciones en IA
Un nuevo artículo de investigación atribuye el problema a los sistemas de evaluación actuales. Los modelos de lenguaje como GPT-5 generan a veces afirmaciones falsas pero plausibles. La compañía sugiere cambiar los métodos de puntuación para desincentivar las conjeturas.
El problema de la confianza errónea
OpenAI define las alucinaciones como “afirmaciones plausibles pero falsas generadas por los modelos de lenguaje”. A pesar de las mejoras, reconoce que estas “siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje” y que nunca se eliminarán por completo. Para ilustrarlo, los investigadores preguntaron a un chatbot sobre la disertación de Ph.D. de Adam Tauman Kalai y obtuvieron tres respuestas diferentes, todas incorrectas.
Origen durante el pretraining
El estudio sugiere que las alucinaciones surgen, en parte, de un proceso de pretraining que se centra en predecir la siguiente palabra correcta, sin etiquetas de veracidad. “El modelo solo ve ejemplos positivos de lenguaje fluido y debe aproximar la distribución general”. Hechos arbitrarios de baja frecuencia, como el cumpleaños de una mascota, no se pueden predecir solo con patrones.
Recompensar la incertidumbre, no la suerte
La solución propuesta se centra en cómo se evalúan los modelos. El documento argumenta que las evaluaciones actuales “establecen los incentivos erróneos”. Se comparan con exámenes de opción múltiple donde adivinar puede dar suerte, mientras que dejar la respuesta en blanco garantiza un cero. Así, “cuando los modelos se califican solo por precisión, se les anima a adivinar”.
Un nuevo sistema de puntuación
La propuesta es similar a tests como el SAT, que incluyen “puntuación negativa por respuestas erróneas o crédito parcial por dejar preguntas en blanco para disuadir las conjeturas”. Las evaluaciones deben penalizar más los errores confiados que la incertidumbre y dar crédito parcial por expresar duda apropiadamente. No basta con introducir algunas pruebas nuevas; los sistemas de evaluación ampliamente usados deben actualizarse.
Un desafío inherente a la tecnología
Las alucinaciones son un problema reconocido y persistente en el desarrollo de la Inteligencia Artificial. El proceso de pretraining, aunque eficaz para generar lenguaje fluido, no discrimina intrínsecamente entre lo verdadero y lo falso para hechos específicos y poco comunes. Esto establece una limitación estructural en la tecnología actual.
El camino a seguir: incentivos más inteligentes
La eficacia futura de los modelos de lenguaje dependerá de la implementación de sistemas de evaluación que recompensen la honestidad sobre la precisión a toda costa. Si las puntuaciones principales siguen premiando las conjeturas afortunadas, los modelos seguirán aprendiendo a adivinar, perpetuando el problema de las alucinaciones.