La destilación reduce el coste y tamaño de los modelos de IA
La técnica permite entrenar modelos más pequeños con un coste inferior a 450 dólares. Desarrollada inicialmente por Google en 2015, se utiliza para crear versiones eficientes de sistemas complejos.
Fundamentos de la técnica
La destilación de conocimiento emplea un modelo grande como «profesor» para entrenar a uno más pequeño o «estudiante». La información se transmite mediante objetivos suaves, donde el profesor muestra probabilidades de cada opción. Este método preserva la precisión mientras reduce significativamente los recursos necesarios.
Origen conceptual
Investigadores de Google, incluido Geoffrey Hinton, introdujeron la idea en 2015. Identificaron que los modelos contienen conocimiento oscuro sobre similitudes entre categorías. Los objetivos suaves revelan que confundir un perro con un gato es menos grave que con un coche.
Expansión y aplicaciones
La técnica se popularizó con el crecimiento de los modelos. En 2019, DistilBERT demostró su eficacia al crear una versión reducida de BERT. Empresas como Google, OpenAI y Amazon ofrecen ahora destilación como servicio. El laboratorio NovaSky mostró en enero que funciona para modelos de cadena de razonamiento.
Impacto industrial
La destilación afecta a la competitividad del sector. El caso de DeepSeek mostró su repercusión en mercados, aunque la destilación directa de modelos cerrados como o1 de OpenAI no es posible sin acceso interno.
Antecedentes de la técnica
La destilación surgió para resolver el problema de los ensembles de modelos, que resultaban costosos y difíciles de ejecutar. La investigación inicial de Google buscaba comprimir múltiples modelos en uno solo más eficiente.
Implicaciones del método
La destilación permite accesibilidad económica a tecnologías de IA avanzadas. Reduce barreras de entrada para empresas y investigadores al abaratar el entrenamiento de modelos competentes, cambiando la dinámica competitiva del sector.