인공지능(AI) 및 고성능 컴퓨팅(HPC) 워크로드가 50kW를 초과하는 드라이브 랙 밀도, 전통적인 공기 냉각은 물리적 및 경제적 한계에 도달하고 있다. 액체 냉각—특히 직접 칩 연결(D2C) 또는 냉판 기술은 현대 데이터 센터의 열 배출을 위한 표준 솔루션으로 부상했습니다. 그러나 공기에서 유체로의 전환은 유압, 수질 화학, 누수 방지에 복잡한 과제를 야기합니다. 본 가이드는 신뢰할 수 있는 액체 냉각 루프 구현에 필요한 핵심 엔지니어링 매개변수, 고장 모드 및 운영 기준을 설명합니다.
침지 냉각이 주목받기 시작했지만, 고밀도 실리콘(예: 엔비디아 HGX H100/블랙웰)는 직접 칩 연결(D2C).
D2C 아키텍처에서는 냉각판이 발열 부품(CPU, GPU, 고대역폭 메모리) 바로 위에 위치합니다. 냉각수는 판 내부의 미세 채널을 통해 흐르며 열을 흡수하고 이를 냉각수 분배 장치 (CDU). CDU는 폐쇄형 기술 루프(2차 루프)와 시설 급수(1차 루프) 사이에서 열을 교환하는 핵심 인터페이스, 즉 시스템의 “심장” 역할을 수행합니다.
D2C 구축의 성공은 최고의 냉각판을 구입하는 것이 아니라, 이를 완벽하게 활용하는 데 있습니다. 시스템 수준 통합 유량, 압력 및 온도 제어 장치의 글로벌 기관들에 의한 ASHRAE 기술위원회 9.9.
액체 냉각은 IT 장비와 시설 인프라 간 엄격한 “핸드셰이크'를 요구합니다. 이러한 매개변수가 서비스 수준 계약(SLA)이나 소유자 프로젝트 요구사항(OPR)에 정의되지 않으면 시스템은 불안정해질 수밖에 없습니다.
다음 표를 사용하여 IT 공급업체, CDU 제조업체 및 시설 운영자를 정렬하십시오:
액체 냉각을 도입하면 공기 냉각 환경에서는 존재하지 않는 고장 모드가 발생합니다. 이를 설계적으로 제거하는 방법은 다음과 같습니다.
새로운 배포에서 가장 흔히 발생하는 문제 중 하나는 흐름 부족. 병렬로 연결된 40개 이상의 냉각판이 장착된 랙에서는 유체가 저항이 가장 적은 경로를 따라 흐르는 것이 자연스러운 현상입니다. 신중한 유체 설계가 이루어지지 않을 경우, CDU에 가장 가까운 서버에는 과도한 유량이 공급되는 반면, 행의 상단이나 먼 끝에 위치한 서버는 과열될 수 있습니다.
해결책:
● 압력 독립 제어: 분기 위치와 관계없이 균등한 분배를 보장하는 유량 균형 밸브 또는 오리피스가 장착된 매니폴드를 사용하십시오.
● Δ를 정의하라P 예산: 조달 시 최대 압력 강하 예산을 명시해야 합니다. 예를 들어, “컴퓨팅 블레이드는 정격 유량에서 100kPa의 압력 강하를 초과하지 않아야 한다”는 조건을 설정합니다. 이는 IT 공급업체가 효율적인 내부 배관 설계를 하도록 강제합니다.
● 시운전 검증: 현장 인수 시험(SAT) 중 “최악의 분기” 테스트를 수행하십시오. 유압적으로 가장 먼 노드에 계측 장치를 설치하고 시스템이 최대 부하 상태일 때 최소 유량 요구 사항(L/min)을 충족하는지 확인하십시오.
공기와 달리 물은 화학적으로 활성적인 매질이다. 열악한 수질은 세 가지 주요 고장을 초래한다: 확대 (냉판 절연), 오염 (필터/핀 막힘), 그리고 부식 (파이프 벽을 파괴하는).
해결책:
● 엄격한 재료 호환성: 가능한 경우 “단일 금속” 방식을 채택하십시오(예: 모두 구리/황동 또는 모두 스테인리스강). 혼합 금속 사용이 불가피할 경우 부식 억제제 사용이 필수입니다.
● 여과 전략: 측류 여과 장치를 설치하여 미립자 물질을 지속적으로 제거하십시오. 마이크로채널 냉각판의 경우 막힘을 방지하기 위해 50마이크론 이하의 미세 여과가 종종 필요합니다.
● 생물학적 방제: 따뜻한 물은 세균의 번식지입니다. CDU 루프에서 자외선 처리 또는 자동 살균제 주입을 사용하여 생물막 형성을 방지하십시오. 생물막은 유압 저항을 급격히 증가시킵니다.
고가의 전자제품에 물이 새는 것에 대한 두려움이 채택의 주요 심리적 장벽이다. 그러나 통계에 따르면 치명적인 파이프 파열은 드물며, 대부분의 누수는 커넥터 접속부 유지보수 중.
해결책:
● 블라인드 메이트 및 드립리스 커넥터: “드립리스”(분리 시 1ml 미만 유출) 등급의 퀵 디스커넥트(QD) 사용을 의무화합니다. 블라인드 메이트 커넥터를 사용하면 서버를 랙에 밀어 넣고 자동으로 물 공급 장치에 연결할 수 있어 호스 조임 시 발생하는 인적 오류 위험을 제거합니다.
● 격리 아키텍처: 랙 또는 행 단위로 차단 밸브가 장착된 매니폴드를 설계하십시오. 이를 통해 시설 관리팀은 전체 포드를 오프라인 상태로 전환하지 않고도 유지보수를 위해 단일 랙의 배액을 수행할 수 있습니다.
● 누수 감지 구역: 랙 하단부와 매니폴드의 가장 낮은 지점에 감지 케이블(로프 누출 감지기)을 설치하십시오. 이를 건물 관리 시스템(BMS)에 직접 통합하여 자동 차단 밸브 폐쇄를 작동시키십시오.
액체 냉각의 주요 장점은 더 높은 온도에서 작동할 수 있다는 점입니다. 물은 공기보다 부피당 약 3,500배 더 효과적으로 열을 흡수하므로 칩을 냉각하기 위해 “차가운” 물이 필요하지 않습니다.
우리는 종종 공급 온도를 다음과 같은 기준으로 분류합니다. ASHRAE 액체 냉각 강좌:
전략적 조언: IT 장비가 지원하는 최고 온도(W3 또는 W4)에 맞춰 설계하십시오. 이는 냉각기 관련 자본 지출(CAPEX)과 전력 관련 운영 지출(OPEX)을 획기적으로 절감합니다.
액체 냉각의 투자 수익률(ROI)을 검증하려면 마케팅 유행어를 넘어 표준 지표를 사용해야 합니다.
주요 산업 지표는 여전히 PUE(전력 사용 효율):
액체 냉각은 두 가지 방식으로 PUE를 개선(낮춤)합니다:
1. 팬 전력 감소: 서버에서 고속 팬을 제거하면 “IT 부하”가 감소합니다(기술적으로는 PUE 계산에 불리하지만, 총계 에너지).
2. 냉각기 오프로딩: 공급 온도가 높을수록 냉각기의 가동 빈도가 줄어듭니다.
그러나 엔지니어들은 또한 추적해야 합니다. TUE (총 사용 효율성). TUE는 CDU 내부 펌프와 콜드 플레이트의 에너지 소비를 반영하며, PUE는 잘못 분류될 경우 이를 간과할 수 있습니다. 최적화된 액체 냉각 시스템은 PUE를 목표로 해야 합니다. 1.15 이하, 전통적인 공랭식 데이터 센터의 1.3–1.4에 비해.
액체 냉각 랙 또는 CDU에 대한 제안 요청서(RFP)를 발행할 때 모호한 요구사항은 비용이 많이 드는 변경 명령으로 이어집니다. 프로젝트를 보호하기 위해 다음 구체적인 항목을 포함하십시오:
액체 냉각은 더 이상 실험 단계가 아닙니다. AI 시대의 필수 조건입니다. 그러나 이는 데이터 센터의 위험 프로필을 열 관리 (공기 이동)을 유체역학 및 화학.
매개변수의 “진리표'를 엄격히 정의하고, 유압적 균형을 고려한 설계, 엄격한 수질 유지, 그리고 적절한 온도 등급(W3/W4) 선택을 통해 액체 냉각을 복잡한 기술에서 효율성 향상의 핵심으로 전환할 수 있습니다. 기술은 준비되어 있습니다. 진정한 도전은 공학적 통합의 체계적 실행에 있습니다.