Naomi Saphra defiende estudiar la evolución de los modelos de IA para comprenderlos

La investigadora Naomi Saphra defiende que estudiar el proceso de entrenamiento, no solo el modelo final, es crucial para comprender la IA. Su enfoque evolutivo analiza el Descenso Gradiente Estocástico y los puntos de control para desvelar el "por qué" del comportamiento de los LLMs.
Quanta Magazine
Naomi Saphra en el Instituto Kempner de la Universidad de Harvard.
Naomi Saphra en el Instituto Kempner de la Universidad de Harvard. / Ken Richardson / Quanta Magazine

Naomi Saphra investiga el entrenamiento para entender la inteligencia artificial

La investigadora Naomi Saphra defiende que para comprender los modelos de lenguaje es crucial estudiar su proceso de entrenamiento. Saphra, becaria en el Instituto Kempner de la Universidad de Harvard, compara su enfoque con la biología evolutiva.

Un enfoque evolutivo para la IA

Naomi Saphra sostiene que la mayoría de la investigación se centra en el producto final de los modelos, mientras que su trabajo examina la historia de su entrenamiento. «Si no comprendes los orígenes del modelo, entonces no entiendes por qué nada funciona», afirmó la investigadora. Su perspectiva se basa en la idea de que el algoritmo de Descenso Gradiente Estocástico (SGD) es fundamental, igual que la evolución lo es para la biología.

Los desafíos de la investigación

La dificultad para acceder a los modelos propietarios es uno de los mayores obstáculos. Las empresas rara vez permiten el acceso a los puntos de control intermedios del entrenamiento o a múltiples ejecuciones. Esto es crucial porque las condiciones iniciales y las variaciones aleatorias pueden dirigir el modelo de forma irreversible. Saphra utiliza esta variación para encontrar correlaciones entre la estructura interna y el comportamiento.

Por qué el proceso importa

El enfoque estándar de interpretabilidad puede llevar a equívocos. Estructuras que parecen importantes pueden ser vestigiales, como neuronas altamente selectivas en redes para clasificar imágenes que, si se suprimen durante el entrenamiento, mejoran el rendimiento del modelo. Saphra argumenta que sin estudiar el entrenamiento, es imposible distinguir lo causal de lo accesorio.

Repercusión en el campo

El trabajo de Saphra cuestiona los métodos predominantes en interpretabilidad. Mientras la mayoría busca el «cómo» funciona un modelo, ella investiga el «por qué». Su enfoque permite realizar afirmaciones más sólidas sobre el vínculo entre la estructura y el comportamiento general de los Modelos de Lenguaje Grande (LLM).

Un camino marcado por la adaptación

Durante su doctorado, Saphra desarrolló una enfermedad neurológica que le impidió escribir a mano o teclear. Esto la llevó a enfocarse en un área de investigación menos competitiva: la dinámica del entrenamiento de modelos de lenguaje. Esta decisión, tomada por necesidad, la condujo a lo que ella define como «una área de investigación realmente fantástica».

Apple lanza el pasaporte digital para usar en controles TSA de EE.UU.

Apple lanza Digital ID en Apple Wallet para identificarse en controles de la TSA en
Usuario mostrando la Identidad Digital de Apple en un iPhone

Google lanza nuevas herramientas de IA para revolucionar las compras navidenas

Google presenta nuevas funciones de compra con IA, incluyendo búsqueda conversacional, checkout autónomo y un
Interfaz de las nuevas herramientas de IA para compras de Google

Bindwell recauda 6 millones para diseñar pesticidas con IA

La startup Bindwell ha obtenido 6 millones de dólares en una ronda semilla para diseñar
Tyler Rose (izquierda) y Navvye Anand (derecha), cofundadores de Bindwell

Cursor recauda 2300 millones de dólares y duplica su valoración

La empresa de herramientas de desarrollo con IA Cursor ha recaudado 2.300 millones de dólares,
Imagen sin título

IA diseña experimentos físicos incomprensibles que funcionan

Un software de IA ha diseñado un interferómetro que aumenta la sensibilidad del observatorio LIGO
Rana Adhikari, físico del Caltech, empleó IA para mejorar detectores.

Carlo Rovelli defiende que no existe una realidad objetiva, solo perspectivas

El físico teórico Carlo Rovelli sostiene que no existe una realidad objetiva, solo una red
Carlo Rovelli en su casa con vistas a los acantilados de Cassis.

Matemáticos resuelven un problema geométrico de más de 300 años

Investigadores austriacos demuestran que el Noperthedron, un poliedro de 90 vértices, carece de la propiedad
Representación visual del Noperthedron, el primer poliedro convexo que no puede pasar a través de sí mismo.

La destilación permite crear modelos de IA más pequeños y baratos

La destilación de conocimiento, técnica desarrollada por Google en 2015, permite entrenar modelos de IA
Imagen sin título

Meta desarrolla un modelo de IA con intuición física similar a la de un bebé

El modelo V-JEPA de Meta alcanza un 98% de precisión en pruebas de física intuitiva.
El modelo V-JEPA muestra sorpresa ante escenarios no físicos.

Un modelo de IA analiza el lenguaje como un experto humano por primera vez

El modelo o1 de OpenAI demostró capacidades metalingüísticas avanzadas, analizando sintaxis compleja, recursión y fonología
Imagen sin título

Físicos eliminan los números imaginarios de la mecánica cuántica

Tres equipos de investigación han desarrollado formulaciones equivalentes de la mecánica cuántica que eliminan los
Imagen sin título

Físicos descubren el origen de la creatividad en los modelos de difusión de IA

La creatividad en IA de generación de imágenes no es aleatoria, sino un subproducto determinista
Imagen sin título