NVIDIA lanza un servicio de monitorización para flotas de GPU en centros de datos

NVIDIA desarrolla un servicio de software opcional para supervisar la salud, rendimiento y eficiencia de flotas de GPUs en infraestructuras de IA a gran escala, maximizando su tiempo de actividad.
NVIDIA Blog
Imagen sin título
Imagen sin título / Autor no disponible / Fuente no disponible

NVIDIA desarrolla un software de monitorización para flotas de GPUs en centros de datos

Un nuevo servicio de software opcional permitirá a los operadores de centros de datos supervisar la salud de sus flotas de GPUs para IA. El objetivo es maximizar el tiempo de actividad y la eficiencia en infraestructuras a gran escala.

Un panel de control para la gestión de infraestructuras de IA

La solución en desarrollo proporciona un panel de control con información sobre rendimiento, temperatura y uso energético. Este servicio de instalación voluntaria para el cliente monitoriza el uso, la configuración y los errores de las GPUs. Incluirá un agente de cliente de código abierto, alineado con el apoyo de NVIDIA al software transparente.

Capacidades clave del servicio

Los operadores podrán rastrear picos en el consumo energético y monitorizar la utilización y la salud de las interconexiones. El sistema también detecta puntos calientes y problemas de flujo de aire de forma temprana. Otras funciones son confirmar configuraciones de software consistentes e identificar errores y anomalías para localizar componentes defectuosos.

Funcionamiento y transparencia del agente

El servicio contará con un agente de software cliente que el cliente instala para transmitir datos de telemetría a un portal en NVIDIA NGC. La herramienta de cliente será de código abierto, ofreciendo transparencia y auditabilidad. Proporciona datos de telemetría de solo lectura que son gestionados y personalizables por el cliente, sin capacidad para modificar configuraciones.

Impacto para empresas y proveedores en la nube

Estas capacidades ayudan a visualizar la flota de GPUs, abordar cuellos de botella y optimizar la productividad. El servicio permite a los clientes generar informes que detallan la información de su flota. La monitorización en tiempo real se realiza mediante la comunicación de métricas de cada sistema GPU con el servicio en la nube externo.

Antecedentes: La necesidad de gestionar infraestructuras complejas

A medida que crecen la escala y la complejidad de la infraestructura de IA, los operadores de centros de datos necesitan visibilidad continua sobre factores como el rendimiento, la temperatura y el uso de energía. Estas percepciones permiten monitorizar y ajustar configuraciones en sistemas distribuidos a gran escala, validando que operan con la máxima eficiencia y fiabilidad.

Cierre: Una herramienta para la era de la IA

La gestión moderna de infraestructuras de IA evoluciona para seguir el ritmo del crecimiento en número y complejidad de las aplicaciones. Asegurar que los centros de datos de IA funcionen con salud óptima es vital mientras la IA revoluciona industrias y aplicaciones. Este servicio de software está diseñado para ayudar en ese objetivo.

Disney y OpenAI anuncian acuerdo de licencias y colaboración en IA

Disney invertirá 1.000 millones de dólares en OpenAI. A cambio, la empresa de IA podrá
Ilustración sobre el acuerdo entre Disney y OpenAI.

Runway lanza GWM-1, su primer modelo del mundo para simulaciones

Runway presenta GWM-1, su primer modelo mundial de IA que simula y comprende la física
Imagen sin título

Cursor lanza una herramienta de IA para diseñadores en su plataforma de codificación

Cursor, la startup de programación con IA, presenta Visual Editor, una herramienta que fusiona diseño
Logotipo de Cursor en una pantalla.

Disney firma acuerdo con OpenAI para usar sus personajes en el generador de vídeo Sora

Disney invertirá 1.000 millones de dólares en OpenAI en una asociación de tres años. Los
Imagen sin título

TIME nombra a los ‘Arquitectos de la IA’ Persona del Año 2025

La revista TIME rompe su tradición y nombra Persona del Año 2025 a un grupo
Portada de TIME Magazine con los 'Arquitectos de la IA'

Una startup solicita cancelar la marca ‘Twitter’ por abandono tras el cambio a X

La startup Operation Bluebird solicita a la USPTO cancelar las marcas «Twitter» y «tweet», alegando
Logotipo de Twitter sobre un fondo azul.

La startup noruega Spoor eleva la precisión de su IA para rastrear aves al 96%

La startup noruega Spoor ha cerrado una ronda de 8 millones de euros. Su software
Ask Helseth, cofundador y CEO de Spoor.

Opera lanza Neon, su navegador con IA, bajo un modelo de suscripción mensual

Opera ha lanzado oficialmente su navegador con IA, Neon, tras un periodo de pruebas. Requiere
Interfaz del navegador Opera Neon

Startup israelí Port recauda 100 millones para competir con Backstage de Spotify

La startup israelí Port ha recaudado 100 millones de dólares en una ronda Serie C,
Imagen sin título

Harness alcanza una valoración de 5.500 millones tras una ronda de 240 millones

La startup de DevOps Harness ha recaudado 240 millones de dólares en una ronda Serie
Logotipo de la empresa Harness.

Mujer da a luz en un robotaxi de Waymo en San Francisco

Una mujer dio a luz en un vehículo autónomo de Waymo durante un trayecto al
Imagen sin título

Google asciende a Amin Vahdat a jefe de tecnología de infraestructura de IA

Google nombra a Amin Vahdat, arquitecto de sus centros de datos, como nuevo responsable tecnológico
Imagen sin título