NVIDIA lanza un servicio de monitorización para flotas de GPU en centros de datos

NVIDIA desarrolla un servicio de software opcional para supervisar la salud, rendimiento y eficiencia de flotas de GPUs en infraestructuras de IA a gran escala, maximizando su tiempo de actividad.
NVIDIA Blog
Imagen sin título
Imagen sin título / Autor no disponible / Fuente no disponible

NVIDIA desarrolla un software de monitorización para flotas de GPUs en centros de datos

Un nuevo servicio de software opcional permitirá a los operadores de centros de datos supervisar la salud de sus flotas de GPUs para IA. El objetivo es maximizar el tiempo de actividad y la eficiencia en infraestructuras a gran escala.

Un panel de control para la gestión de infraestructuras de IA

La solución en desarrollo proporciona un panel de control con información sobre rendimiento, temperatura y uso energético. Este servicio de instalación voluntaria para el cliente monitoriza el uso, la configuración y los errores de las GPUs. Incluirá un agente de cliente de código abierto, alineado con el apoyo de NVIDIA al software transparente.

Capacidades clave del servicio

Los operadores podrán rastrear picos en el consumo energético y monitorizar la utilización y la salud de las interconexiones. El sistema también detecta puntos calientes y problemas de flujo de aire de forma temprana. Otras funciones son confirmar configuraciones de software consistentes e identificar errores y anomalías para localizar componentes defectuosos.

Funcionamiento y transparencia del agente

El servicio contará con un agente de software cliente que el cliente instala para transmitir datos de telemetría a un portal en NVIDIA NGC. La herramienta de cliente será de código abierto, ofreciendo transparencia y auditabilidad. Proporciona datos de telemetría de solo lectura que son gestionados y personalizables por el cliente, sin capacidad para modificar configuraciones.

Impacto para empresas y proveedores en la nube

Estas capacidades ayudan a visualizar la flota de GPUs, abordar cuellos de botella y optimizar la productividad. El servicio permite a los clientes generar informes que detallan la información de su flota. La monitorización en tiempo real se realiza mediante la comunicación de métricas de cada sistema GPU con el servicio en la nube externo.

Antecedentes: La necesidad de gestionar infraestructuras complejas

A medida que crecen la escala y la complejidad de la infraestructura de IA, los operadores de centros de datos necesitan visibilidad continua sobre factores como el rendimiento, la temperatura y el uso de energía. Estas percepciones permiten monitorizar y ajustar configuraciones en sistemas distribuidos a gran escala, validando que operan con la máxima eficiencia y fiabilidad.

Cierre: Una herramienta para la era de la IA

La gestión moderna de infraestructuras de IA evoluciona para seguir el ritmo del crecimiento en número y complejidad de las aplicaciones. Asegurar que los centros de datos de IA funcionen con salud óptima es vital mientras la IA revoluciona industrias y aplicaciones. Este servicio de software está diseñado para ayudar en ese objetivo.

Usuarias denuncian sesgo de género en el algoritmo de LinkedIn tras un experimento

Un experimento muestra que usuarias que cambiaron su género a masculino en LinkedIn registraron aumentos
Imagen sin título

SpaceX prepara su salida a bolsa para 2026 con una valoración récord

SpaceX planea salir a bolsa en 2025 con una valoración de 1,5 billones de dólares.
Fotografía de archivo de Elon Musk, fundador de SpaceX.

Google lanza traducción en tiempo real para auriculares con IA

Google ha lanzado una función beta en su aplicación Translate que permite escuchar traducciones en
Ilustración de una persona usando auriculares con un icono de traducción.

Trump firma orden ejecutiva para impugnar leyes estatales de inteligencia artificial

El presidente Trump firma una orden ejecutiva para impugnar normativas estatales sobre IA, alegando que
Imagen sin título

Robot bartender ADAM sirve bebidas en el T-Mobile Arena de Las Vegas

ADAM, un robot barman desarrollado con librerías NVIDIA Isaac, atiende a aficionados en el T-Mobile
Robot ADAM sirviendo una bebida en el T-Mobile Arena.

Trump firma una orden ejecutiva para imponer un marco federal de IA y desafiar leyes estatales

El presidente Trump firma una orden ejecutiva que busca imponer un marco regulatorio nacional de
Fotografía de archivo del presidente Donald Trump

Google lanza su agente de investigación profunda Gemini basado en Gemini 3 Pro

Google presenta Gemini Deep Research, un agente de IA basado en Gemini 3 Pro diseñado
Imagen sin título

Do Kwon, fundador de Terraform Labs, condenado a 15 años de prisión por fraude

Do Kwon, fundador de Terraform Labs, ha sido sentenciado a 15 años de cárcel por
Do Kwon en la corte federal del Distrito Sur de Nueva York.

1X enviará hasta 10.000 robots humanoides Neo a empresas industriales de EQT

La empresa de robótica 1X enviará hasta 10.000 unidades de su robot humanoide Neo a
Imagen sin título

OpenAI lanza GPT-5.2, su modelo más capaz para trabajo profesional

OpenAI ha presentado GPT-5.2, su modelo más capaz para trabajo profesional, entrenado y desplegado en
Imagen sin título

Taiwán impulsa pagos sin contacto con coleccionables y figuras decorativas

Taiwán desarrolla un sistema de pagos sin contacto basado en llaveros con chips NFC con
Llaveros con chip de pago con diseños de productos y personajes en Taiwán.

Disney acusa a Google de infracción masiva de copyright por uso de IA

Disney envió una carta de cese y desistimiento a Google por utilizar sus modelos de
Imagen sin título