Refrigeración líquida de ingeniería: guía sobre el funcionamiento de los sistemas Direct-to-Chip y Cold Plate en centros de datos

A medida que las cargas de trabajo de inteligencia artificial (IA) y computación de alto rendimiento (HPC) densidades de bastidores de accionamiento superiores a 50 kW, la refrigeración por aire tradicional está llegando a sus límites físicos y económicos. La refrigeración líquida, concretamente Directo al chip (D2C) o Placa fría La tecnología de refrigeración por líquido se ha convertido en la solución estándar para la disipación del calor en los centros de datos modernos. Sin embargo, el cambio del aire al líquido plantea retos complejos en materia de hidráulica, química del agua y prevención de fugas. Esta guía describe los parámetros técnicos críticos, los modos de fallo y las normas operativas necesarias para implementar un circuito de refrigeración por líquido fiable.

CDU

Índice

1. El alcance: definición de la refrigeración líquida moderna

Aunque la refrigeración por inmersión está ganando terreno, el estándar industrial inmediato para el silicio de alta densidad (como el NVIDIA HGX H100/Blackwell) es Directo al chip (D2C).

En una arquitectura D2C, una placa de refrigeración se coloca directamente sobre los componentes que generan calor (CPU, GPU y memoria de alto ancho de banda). El refrigerante fluye a través de microcanales dentro de la placa, absorbiendo el calor y transportándolo a un Unidad de distribución de refrigerante (CDU). La CDU actúa como interfaz crítica —el “corazón” del sistema— que intercambia calor entre el circuito tecnológico cerrado (circuito secundario) y el suministro de agua de la instalación (circuito primario).

El éxito en la implementación de D2C no consiste en comprar la mejor placa de refrigeración, sino en dominar el integración a nivel de sistema de controles de flujo, presión y temperatura por organismos globales como Comité Técnico 9.9 de ASHRAE.

2. La "tabla de verdad" de la ingeniería: parámetros críticos de diseño

La refrigeración líquida requiere una “comunicación” estricta entre los equipos informáticos y la infraestructura de las instalaciones. Si estos parámetros no se definen en el acuerdo de nivel de servicio (SLA) o en los requisitos del proyecto del propietario (OPR), el sistema estará abocado a la inestabilidad.

Utilice la siguiente tabla para alinear a los proveedores de TI, los fabricantes de CDU y los operadores de instalaciones:

3. Superar los "tres grandes" retos de ingeniería

La implementación de la refrigeración líquida introduce modos de fallo que no existen en entornos refrigerados por aire. A continuación se explica cómo eliminarlos mediante ingeniería.

Unidades de diseño CDU distribuidas
Unidades de diseño CDU distribuidas
Unidad de diseño CDU centralizada
Unidad de diseño CDU centralizada

3.1 Hidráulica: resolución del problema de distribución

Uno de los problemas más comunes en las nuevas implementaciones es falta de flujo. En un rack que contiene más de 40 placas frías conectadas en paralelo, el fluido sigue naturalmente el camino de menor resistencia. Sin un diseño hidráulico cuidadoso, los servidores más cercanos a la CDU pueden recibir un flujo excesivo, mientras que los servidores en la parte superior o en el extremo más alejado de la fila se sobrecalientan.

La solución:

● Control independiente de la presión: Utilice colectores equipados con válvulas de equilibrio de caudal u orificios que garanticen una distribución uniforme independientemente de la posición de la derivación.

● Definir el ΔP Presupuesto: El departamento de compras debe especificar un presupuesto máximo de caída de presión. Por ejemplo: “El blade informático no debe superar una caída de presión de 100 kPa con un flujo nominal”. Esto obliga a los proveedores de TI a diseñar un sistema interno eficiente.

● Puesta en servicio Validación: Durante la prueba de aceptación del sitio (SAT), realice una prueba de “ramificación en el peor de los casos”. Instale el instrumento en el nodo hidráulicamente más alejado y compruebe que cumple los requisitos mínimos de caudal (L/min) cuando el sistema está a plena carga.

3.2 Química del agua: el asesino silencioso

A diferencia del aire, el agua es un medio químicamente activo. La mala calidad del agua provoca tres fallos principales: escalado (aislando la placa fría), incrustaciones (obstrucción de filtros/aletas), y corrosión (destruyendo las paredes de las tuberías).

La solución:

● Compatibilidad estricta de materiales: Adopte un enfoque “monometálico” siempre que sea posible (por ejemplo, todo cobre/latón o todo acero inoxidable). Si es inevitable mezclar metales, es obligatorio el uso de un inhibidor de corrosión.

● Estrategia de filtración: Instale unidades de filtración de flujo lateral para eliminar continuamente las partículas en suspensión. En el caso de las placas frías de microcanales, a menudo se requiere una filtración de hasta 50 micras o menos para evitar obstrucciones.

● Control biológico: El agua caliente es un caldo de cultivo para las bacterias. Utilice tratamiento UV o dosificación automática de biocidas en el circuito CDU para evitar la formación de biopelículas, que aumentan drásticamente la resistencia hidráulica.

3.3 Riesgo de fugas: diseño orientado a la facilidad de mantenimiento

El miedo a que el agua se filtre en aparatos electrónicos caros es la principal barrera psicológica para su adopción. Sin embargo, las estadísticas muestran que las roturas catastróficas de tuberías son poco frecuentes; la mayoría de las fugas se producen en uniones de conectores durante el mantenimiento.

La solución:

● Conectores ciegos y antigoteo: Exija conectores de desconexión rápida (QD) clasificados como “antigoteo” (derrame < 1 ml por desconexión). Los conectores de acoplamiento ciego permiten deslizar los servidores en el bastidor y conectarlos automáticamente al agua, lo que elimina el riesgo de error humano al apretar las mangueras.

● Arquitectura de aislamiento: Diseñe el colector con válvulas de aislamiento a nivel de rack o fila. Esto permite a los equipos de las instalaciones drenar un solo rack para su mantenimiento sin tener que desconectar todo el pod.

● Zonas de detección de fugas: Instale cables sensores (detectores de fugas de cuerda) a lo largo de la parte inferior del bastidor y en el punto más bajo del colector. Intégrelos directamente en el sistema de gestión del edificio (BMS) para activar el cierre automático de la válvula de aislamiento.

4. Estrategia de temperatura: el paso al agua caliente

Una ventaja importante de la refrigeración líquida es la capacidad de funcionar a temperaturas más altas. Dado que el agua es aproximadamente 3500 veces más eficaz que el aire a la hora de capturar calor por volumen, no necesitamos agua “fría” para refrigerar un chip.

A menudo clasificamos las temperaturas de suministro en función de Cursos sobre refrigeración líquida de ASHRAE:

  • W1/W2 (17 °C – 27 °C): Requiere refrigeración mecánica en la mayoría de los climas. Similar a los sistemas tradicionales.
  • W3 (2 °C – 32 °C): El “punto óptimo” para muchos operadores modernos. Permite un número significativo de horas de refrigeración libre utilizando enfriadores secos o torres adiabáticas.
  • W4 (2 °C – 45 °C): “Refrigeración con ”agua caliente». En este rango, a menudo se pueden eliminar por completo los enfriadores mecánicos, incluso en climas cálidos, confiando únicamente en la disipación del calor a la atmósfera.

Asesoramiento estratégico: Diseñe para la temperatura más alta que admita su equipo informático (W3 o W4). Esto reduce drásticamente el gasto de capital (CAPEX) en enfriadores y el gasto operativo (OPEX) en electricidad.

5. Medición de la eficiencia: PUE y más allá

Para validar el retorno de la inversión (ROI) de la refrigeración líquida, debe ir más allá de las palabras de moda del marketing y utilizar métricas estándar.

La métrica principal del sector sigue siendo PUE (Eficacia del uso de la energía):

pue calcular

La refrigeración líquida mejora (reduce) el PUE de dos maneras:

1. Reducción de la potencia del ventilador: La eliminación de los ventiladores de alta velocidad de los servidores reduce la “carga informática” (aunque técnicamente esto perjudica al cálculo del PUE, reduce total energía).

2. Descarga del enfriador: Las temperaturas de suministro más altas hacen que el enfriador funcione con menos frecuencia.

Sin embargo, los ingenieros también deben realizar un seguimiento de TUE (Eficacia total de uso). El TUE tiene en cuenta la energía consumida por las bombas dentro de las CDU y las placas de refrigeración, que el PUE podría pasar por alto si se clasifica incorrectamente. Un sistema de refrigeración líquida bien ajustado debe tener como objetivo un PUE de 1,15 o menos, en comparación con el 1,3-1,4 de los centros tradicionales típicos refrigerados por aire.

6. Adquisiciones: Lista de verificación de "especificaciones mínimas"

Al emitir una solicitud de propuesta (RFP) para racks refrigerados por líquido o CDU, los requisitos vagos dan lugar a costosas órdenes de cambio. Incluya estos elementos específicos para proteger su proyecto:

Resumen

La refrigeración líquida ya no es experimental, sino un requisito previo para la era de la IA. Sin embargo, cambia el perfil de riesgo de los centros de datos de gestión térmica (aire en movimiento) a dinámica de fluidos y química.

Al definir estrictamente su “tabla de verdad” de parámetros, diseñar para lograr un equilibrio hidráulico, mantener una calidad rigurosa del agua y elegir la clase de temperatura adecuada (W3/W4), puede transformar la refrigeración líquida de una complejidad aterradora en una mejora masiva de la eficiencia. La tecnología está lista; el reto reside en la disciplina de la integración de la ingeniería.

Obtenga una consulta gratuita
con Ingeniero

Más preguntas