A medida que las cargas de trabajo de inteligencia artificial (IA) y computación de alto rendimiento (HPC) densidades de bastidores de accionamiento superiores a 50 kW, la refrigeración por aire tradicional está llegando a sus límites físicos y económicos. La refrigeración líquida, concretamente Directo al chip (D2C) o Placa fría La tecnología de refrigeración por líquido se ha convertido en la solución estándar para la disipación del calor en los centros de datos modernos. Sin embargo, el cambio del aire al líquido plantea retos complejos en materia de hidráulica, química del agua y prevención de fugas. Esta guía describe los parámetros técnicos críticos, los modos de fallo y las normas operativas necesarias para implementar un circuito de refrigeración por líquido fiable.
Aunque la refrigeración por inmersión está ganando terreno, el estándar industrial inmediato para el silicio de alta densidad (como el NVIDIA HGX H100/Blackwell) es Directo al chip (D2C).
En una arquitectura D2C, una placa de refrigeración se coloca directamente sobre los componentes que generan calor (CPU, GPU y memoria de alto ancho de banda). El refrigerante fluye a través de microcanales dentro de la placa, absorbiendo el calor y transportándolo a un Unidad de distribución de refrigerante (CDU). La CDU actúa como interfaz crítica —el “corazón” del sistema— que intercambia calor entre el circuito tecnológico cerrado (circuito secundario) y el suministro de agua de la instalación (circuito primario).
El éxito en la implementación de D2C no consiste en comprar la mejor placa de refrigeración, sino en dominar el integración a nivel de sistema de controles de flujo, presión y temperatura por organismos globales como Comité Técnico 9.9 de ASHRAE.
La refrigeración líquida requiere una “comunicación” estricta entre los equipos informáticos y la infraestructura de las instalaciones. Si estos parámetros no se definen en el acuerdo de nivel de servicio (SLA) o en los requisitos del proyecto del propietario (OPR), el sistema estará abocado a la inestabilidad.
Utilice la siguiente tabla para alinear a los proveedores de TI, los fabricantes de CDU y los operadores de instalaciones:
La implementación de la refrigeración líquida introduce modos de fallo que no existen en entornos refrigerados por aire. A continuación se explica cómo eliminarlos mediante ingeniería.
Uno de los problemas más comunes en las nuevas implementaciones es falta de flujo. En un rack que contiene más de 40 placas frías conectadas en paralelo, el fluido sigue naturalmente el camino de menor resistencia. Sin un diseño hidráulico cuidadoso, los servidores más cercanos a la CDU pueden recibir un flujo excesivo, mientras que los servidores en la parte superior o en el extremo más alejado de la fila se sobrecalientan.
La solución:
● Control independiente de la presión: Utilice colectores equipados con válvulas de equilibrio de caudal u orificios que garanticen una distribución uniforme independientemente de la posición de la derivación.
● Definir el ΔP Presupuesto: El departamento de compras debe especificar un presupuesto máximo de caída de presión. Por ejemplo: “El blade informático no debe superar una caída de presión de 100 kPa con un flujo nominal”. Esto obliga a los proveedores de TI a diseñar un sistema interno eficiente.
● Puesta en servicio Validación: Durante la prueba de aceptación del sitio (SAT), realice una prueba de “ramificación en el peor de los casos”. Instale el instrumento en el nodo hidráulicamente más alejado y compruebe que cumple los requisitos mínimos de caudal (L/min) cuando el sistema está a plena carga.
A diferencia del aire, el agua es un medio químicamente activo. La mala calidad del agua provoca tres fallos principales: escalado (aislando la placa fría), incrustaciones (obstrucción de filtros/aletas), y corrosión (destruyendo las paredes de las tuberías).
La solución:
● Compatibilidad estricta de materiales: Adopte un enfoque “monometálico” siempre que sea posible (por ejemplo, todo cobre/latón o todo acero inoxidable). Si es inevitable mezclar metales, es obligatorio el uso de un inhibidor de corrosión.
● Estrategia de filtración: Instale unidades de filtración de flujo lateral para eliminar continuamente las partículas en suspensión. En el caso de las placas frías de microcanales, a menudo se requiere una filtración de hasta 50 micras o menos para evitar obstrucciones.
● Control biológico: El agua caliente es un caldo de cultivo para las bacterias. Utilice tratamiento UV o dosificación automática de biocidas en el circuito CDU para evitar la formación de biopelículas, que aumentan drásticamente la resistencia hidráulica.
El miedo a que el agua se filtre en aparatos electrónicos caros es la principal barrera psicológica para su adopción. Sin embargo, las estadísticas muestran que las roturas catastróficas de tuberías son poco frecuentes; la mayoría de las fugas se producen en uniones de conectores durante el mantenimiento.
La solución:
● Conectores ciegos y antigoteo: Exija conectores de desconexión rápida (QD) clasificados como “antigoteo” (derrame < 1 ml por desconexión). Los conectores de acoplamiento ciego permiten deslizar los servidores en el bastidor y conectarlos automáticamente al agua, lo que elimina el riesgo de error humano al apretar las mangueras.
● Arquitectura de aislamiento: Diseñe el colector con válvulas de aislamiento a nivel de rack o fila. Esto permite a los equipos de las instalaciones drenar un solo rack para su mantenimiento sin tener que desconectar todo el pod.
● Zonas de detección de fugas: Instale cables sensores (detectores de fugas de cuerda) a lo largo de la parte inferior del bastidor y en el punto más bajo del colector. Intégrelos directamente en el sistema de gestión del edificio (BMS) para activar el cierre automático de la válvula de aislamiento.
Una ventaja importante de la refrigeración líquida es la capacidad de funcionar a temperaturas más altas. Dado que el agua es aproximadamente 3500 veces más eficaz que el aire a la hora de capturar calor por volumen, no necesitamos agua “fría” para refrigerar un chip.
A menudo clasificamos las temperaturas de suministro en función de Cursos sobre refrigeración líquida de ASHRAE:
Asesoramiento estratégico: Diseñe para la temperatura más alta que admita su equipo informático (W3 o W4). Esto reduce drásticamente el gasto de capital (CAPEX) en enfriadores y el gasto operativo (OPEX) en electricidad.
Para validar el retorno de la inversión (ROI) de la refrigeración líquida, debe ir más allá de las palabras de moda del marketing y utilizar métricas estándar.
La métrica principal del sector sigue siendo PUE (Eficacia del uso de la energía):
La refrigeración líquida mejora (reduce) el PUE de dos maneras:
1. Reducción de la potencia del ventilador: La eliminación de los ventiladores de alta velocidad de los servidores reduce la “carga informática” (aunque técnicamente esto perjudica al cálculo del PUE, reduce total energía).
2. Descarga del enfriador: Las temperaturas de suministro más altas hacen que el enfriador funcione con menos frecuencia.
Sin embargo, los ingenieros también deben realizar un seguimiento de TUE (Eficacia total de uso). El TUE tiene en cuenta la energía consumida por las bombas dentro de las CDU y las placas de refrigeración, que el PUE podría pasar por alto si se clasifica incorrectamente. Un sistema de refrigeración líquida bien ajustado debe tener como objetivo un PUE de 1,15 o menos, en comparación con el 1,3-1,4 de los centros tradicionales típicos refrigerados por aire.
Al emitir una solicitud de propuesta (RFP) para racks refrigerados por líquido o CDU, los requisitos vagos dan lugar a costosas órdenes de cambio. Incluya estos elementos específicos para proteger su proyecto:
La refrigeración líquida ya no es experimental, sino un requisito previo para la era de la IA. Sin embargo, cambia el perfil de riesgo de los centros de datos de gestión térmica (aire en movimiento) a dinámica de fluidos y química.
Al definir estrictamente su “tabla de verdad” de parámetros, diseñar para lograr un equilibrio hidráulico, mantener una calidad rigurosa del agua y elegir la clase de temperatura adecuada (W3/W4), puede transformar la refrigeración líquida de una complejidad aterradora en una mejora masiva de la eficiencia. La tecnología está lista; el reto reside en la disciplina de la integración de la ingeniería.