Laboratorio de UC San Diego recibe sistema NVIDIA DGX B200 para investigación en IA
El laboratorio Hao AI de la Universidad de California en San Diego (UC San Diego) ha recibido un sistema NVIDIA DGX B200. Este equipo se utilizará para avanzar en la investigación de inferencia de modelos de lenguaje grande (LLM) y otros proyectos. El centro estará disponible para la comunidad de la Escuela de Computación, Información y Ciencias de Datos.
Aceleración de proyectos punteros
El sistema permitirá prototipar y experimentar más rápido que con hardware de generaciones anteriores. Dos de los proyectos que se acelerarán son FastVideo y Lmgame-bench. FastVideo se centra en generar un vídeo de cinco segundos a partir de un texto en el mismo tiempo. Lmgame-bench es un banco de pruebas que evalúa LLMs usando videojuegos como Tetris.
Búsqueda de baja latencia en LLMs
Otros trabajos del laboratorio exploran nuevas formas de lograr un servicio de LLM de baja latencia. Los investigadores usan el DGX B200 para explorar la próxima frontera del servicio de LLM de baja latencia. El objetivo es acercar los modelos de lenguaje grande a una capacidad de respuesta en tiempo real.
El origen de DistServe y la métrica «goodput»
Varias plataformas de inferencia de LLM en producción, como NVIDIA Dynamo, usan conceptos de investigación originados en el Hao AI Lab, incluido DistServe. DistServe propuso una nueva métrica llamada «goodput». Esta mide el rendimiento (throughput) mientras se cumplen los objetivos de latencia especificados por el usuario. Representa la salud general de un sistema satisfaciendo la experiencia del usuario.
Desagregación de prefiltrado y decodificación
Los investigadores detrás de DistServe descubrieron que separar las fases de prefiltrado (prefill) y decodificación (decode) en diferentes GPUs maximiza el «goodput». Este proceso elimina la interferencia entre las dos tareas, haciendo que ambas se ejecuten más rápido. NVIDIA Dynamo permite escalar la inferencia desagregada.
Colaboraciones y futuro de la investigación
El DGX B200 también apoyará colaboraciones interdepartamentales en UC San Diego, por ejemplo en sanidad y biología. El objetivo es optimizar una variedad de proyectos de investigación mientras se explora cómo las plataformas de IA pueden acelerar la innovación.