NVIDIA y CoreWeave logran récord mundial en procesamiento de grafos
410 billones de aristas procesadas por segundo en el benchmark Graph500. El resultado se obtuvo con 8.192 GPUs H100 en un clúster comercial de CoreWeave, duplicando el rendimiento de sistemas de laboratorios nacionales.
Una eficiencia que redefine los costes
La ejecución récord utilizó solo algo más de 1.000 nodos, frente a los aproximadamente 9.000 de una entrada comparable entre las diez primeras. Esto supone un rendimiento tres veces superior por dólar. La clave fue el uso combinado de la plataforma CUDA, la red Spectrum-X, las GPUs H100 y una nueva biblioteca de mensajería activa.
Reingeniería del procesamiento para la GPU
NVIDIA rediseñó el sistema para que la mensajería activa se ejecute completamente en las GPUs, evitando la CPU. Se emplearon las tecnologías InfiniBand GPUDirect Async (IBGDA) y NVSHMEM para permitir mensajes activos de GPU a GPU, aprovechando el paralelismo masivo de las H100.
Antecedentes: Los grafos, la estructura invisible
Los grafos son la estructura de información subyacente en redes sociales o aplicaciones bancarias. El benchmark Graph500 BFS mide la capacidad de un sistema para navegar por esta irregularidad a gran escala, validando la ingeniería de todo el sistema, no solo la velocidad de la CPU o la GPU.
Cierre: Implicaciones para la computación de alto rendimiento
Este avance tiene implicaciones para campos como la dinámica de fluidos o la previsión meteorológica, que usan estructuras de datos dispersas similares. El resultado valida un nuevo enfoque que permite llevar el rendimiento de la supercomputación a infraestructuras comercialmente disponibles.