AI와 고성능 컴퓨팅이 첨단 클러스터에서 랙 부하를 30kW 또는 100kW까지 끌어올리면서 구식 공랭식 냉각은 약 20kW에서 벽에 부딪힙니다. 제어 범위를 벗어난 온도는 에너지를 낭비하고 PUE를 급상승시킬 뿐만 아니라 칩 수명을 단축하고 속도를 저하시키며 성능과 예산을 모두 소모합니다. 액체 냉각은 열 흡수 및 전달 능력이 뛰어난 유체를 사용하여 PUE를 1.1-1.2로 낮추고 에너지 사용량을 20-30%까지 절감하며 현대 데이터 센터의 필수품으로 빠르게 자리 잡고 있습니다.
그렇다면 어떤 종류의 액체 냉각이 있을까요? 그리고 왜 전력, 비용, 신뢰성 면에서 공랭식 솔루션을 능가할까요? 다음 6개의 섹션에서 이 모든 것에 대한 답변과 함께 실질적인 출시 조언 및 시장 전망에 대해 알아보고 액체 냉각 시대에 대한 완벽한 가이드를 살펴보세요.
'액체 냉각'은 한 가지가 아니라 온수 도어부터 완전히 잠긴 '입욕기'까지 다양한 스펙트럼을 가지고 있습니다.
냉각판, 단상 침지, 2상 침지, 칩 직접 냉각의 네 가지 주요 유형이 있습니다. 콜드 플레이트는 90%의 프로젝트에 사용된 검증된 기술 덕분에 선두를 달리고 있습니다.
냉각판이 주를 이루지만, 극한의 고전력 시나리오에서는 침수 및 제트 냉각이 핵심입니다.
냉각판 냉각은 위기 상황에 대비한 안정성, 합리적인 가격, 간편한 개조로 데이터 센터의 필수 솔루션으로 자리 잡았습니다.
30kW 랙의 경우 냉각판 자본비용은 약 21,000위안/IT kW이며, 월 운영비용은 공랭식 또는 침수식보다 낮은 685위안/IT kW에 불과합니다.
홈이나 마이크로 채널이 있는 구리 또는 알루미늄 냉각판은 약 25W/cm²-K의 열을 전달합니다. 냉각수가 실제로 전자 장치에 닿지 않기 때문에 CDU와 일부 배관만 추가하면 쉽게 개조할 수 있습니다. ASHRAE 데이터 통신 시리즈, EU 행동 규범 및 미국 DOE는 모두 냉각판의 물 순도 및 온도 사양을 명시하고 있습니다. 실제 환경에서는? Equinix는 A100 GPU를 공랭식에서 냉각판 냉각으로 전환했을 때 PUE가 1.6에서 1.15로 감소하여 전력을 30% 절약하고 랙당 밀도를 30kW로 두 배로 늘렸습니다.
GPU가 각각 800W 또는 1kW의 전력을 내기 시작하면 냉각판도 땀을 흘리기 시작합니다.
단상 침수는 1kW GPU를 쉽게 냉각합니다. 2상 침수 및 제트 냉각은 열 처리 한계를 훨씬 더 높입니다(300W/cm²-K 이상).
침수 냉각은 서버를 유전체 유체에 완전히 잠기게 하여 기존 설계의 "에어 갭"을 제거합니다. 하이퍼텍의 하단 흐름 GPU 랙은 맞춤형 라디에이터와 결합하여 1000W GPU를 논스톱으로 효율적으로 냉각합니다. 2상 침수는 상 변화를 활용하여 큰 이득을 얻을 수 있지만 냉매 비용과 안전성에 대한 장애물에 직면합니다. 제트 냉각은 실제로 칩에 냉각수를 분사하는 방식으로 이론적으로 가장 높은 열 제거 성능을 제공하지만 복잡성 때문에 연구용으로만 사용됩니다. 현재 이러한 기술은 AI R&D 및 국방 분야에서 제한적으로 사용되고 있지만, 가격과 성숙하지 않은 표준으로 인해 더 널리 채택되지 못하고 있습니다.
모든 프로젝트는 세 가지 질문에 따라 생사가 갈립니다: 비용은 얼마인가? 투자 회수는 얼마나 빠른가? 정말 절약할 수 있는가?
일반적인 30kW 랙의 경우 냉각판 TCO는 1,057위안/IT kW/월에 불과하여 14%의 공랭식 냉각을 능가합니다. 초기 비용이 더 비싼 단상 침수는 총 비용에서 공랭식과 거의 비슷합니다.
냉각판 비용은 대부분 냉각판, 파이프, CDU로 구성되며 전체 비용의 약 60%에 해당합니다. 지속적인 비용은 펌프와 수처리에서 발생합니다. 단상 침지는 유체와 맞춤형 탱크로 인해 비용이 많이 듭니다(31,000위안/IT kW). 공기는 저렴해 보이지만, 모든 추가 AC로 가동하면 액체 냉각은 2년 안에 비용을 회수할 수 있습니다. NVIDIA에 따르면 지구상의 모든 CPU 서버를 GPU와 액체 냉각으로 전환하면 연간 1조 kWh(1조 8천억 달러에 해당하는 금액) 이상을 절약할 수 있다고 합니다.
액체 냉각은 에너지를 절약하지만 한 번의 누출로 모든 것을 되돌릴 수 있습니다.
위험 없는 시스템을 위해 7가지 철칙(아슈라에 수질, 이중 루프 CDN 이중화, 분기별 압력 점검, 안정적인 냉각수, 표준 랙, 30~100kW 성장 계획, AI 열 제어)을 준수하세요.
ASHRAE는 100µS/cm 미만의 물 회로를 권장하고, 유럽에서는 20~45°C 냉각수를 요구합니다. 냉각판에는 EPDM/FKM 씰을 사용하고 계절별(1bar) 공기 테스트를 실행하며 침수 시스템의 유체 수준과 화학적 안정성을 주시합니다. 미국 DOE는 시설과 기술 냉각 루프 간의 열 교환을 권장합니다. 하이퍼텍의 스마트 배관으로 점검 주기를 월별에서 분기별로 줄였습니다. 모범 사례: DCIM 플랫폼에 연결하여 머신 러닝이 펌프 속도와 밸브를 설정하도록 하여 PUE를 더욱 낮춥니다.
때로는 시장이 스펙보다 더 큰 목소리를 낼 때가 있습니다.
2028년까지 CPU 서버의 25%(1350억 위안), GPU 서버의 55%(5000억 위안 이상)에서 냉각판 냉각이 사용될 것으로 예상됩니다.
전 세계적으로 3,600만 대 이상의 CPU 서버(평균 290W)와 1,500만 대의 GPU 서버(평균 1,800W)가 출하될 것으로 예상됩니다. 냉각판 액체 냉각은 3,400위안/kW에 불과한 반면 침수 냉각은 9,600위안에 달합니다. 중국에서는 잉웨이 테크와 인스퍼 같은 주요 기업이 전체 가치 사슬을 아우르고 있으며, 해외에서는 쿨아이티와 아세텍이 하이엔드 구축을 주도하고 있습니다. 미래 전망: 알루미늄 냉각판과 플라스틱 파이프로 비용 절감 15%; 나노 유체는 열 전달을 더 높일 수 있지만 여전히 안정성과 비용을 입증해야 합니다. 칩용 마이크로채널 냉각은 300W/cm²를 돌파할 수 있지만 아직 시장에 출시되지 않았습니다. AI 기반 제어와 엣지 센터는 더 큰 성장을 의미합니다.
기술이 실제 사용 환경에서 제공되지 않는다면 슬라이드 데크에 불과합니다.
NVIDIA의 수냉식 A100 및 H100 GPU는 PUE를 1.6에서 1.15로 낮추고 컴퓨팅 밀도를 두 배로 높였으며, Equinix 데이터센터에 대량으로 출시되고 있습니다.
A100은 마이크로 채널이 있는 구리 냉각판을 사용하여 70%의 핫스팟을 냉각하고, H100은 폐쇄 루프 직접 냉각을 통해 물 보충을 줄입니다. PCIe, SXM, OAM을 지원하며 ASUS 및 Foxconn 랙에서 작동하므로 특별한 캐비닛이 필요하지 않습니다. 30%의 에너지 절감 효과로 NVIDIA는 전 세계적으로 수냉식 GPU로 전환하면 연간 1조 kWh 이상의 에너지를 절약할 수 있으며, 이는 프랑스가 1년간 사용하는 전력량과 맞먹는 양이라고 주장합니다. Equinix 파일럿은 랙 밀도가 15kW에서 30kW로 증가하여 100kW/랙 AI 설정을 위한 충분한 냉각 헤드룸을 확보할 수 있음을 입증했습니다.
오늘날의 초집적, 저PUE 환경에서 액체 냉각은 사치가 아니라 필수입니다. 냉각판이 90% 랙에 사용되는 데에는 그럴 만한 이유가 있으며, 이제 침수 및 제트 냉각은 가장 전력 소모가 많은 애플리케이션을 위해 획기적인 발전을 거듭하고 있습니다. 강력한 안전, 유지보수 및 AI 기반 제어를 통해 시설은 다음 도약을 준비할 수 있습니다. 2028년까지 액체 냉각 시장은 6,000억 위안에 달할 것이며, 마이크로 채널과 나노 유체가 차세대 대세로 떠오를 것입니다. 7가지 구현 규칙, 4가지 글로벌 표준, 업계 플레이어를 파악하면 가장 멋진(그리고 가장 핫한!) 컴퓨팅을 위한 경쟁에서 앞서 나갈 수 있습니다.
다음은 이 기술을 이해하는 데 도움이 되는 몇 가지 필수 수냉식 용어입니다: