数据中心新的冷却技术不断涌现
所有电子设备都会产生热量,必须及时散热,防止过热。数十年来,空气冷却一直是主流方案,而液冷技术则应用于超算领域等高负荷计算场景。
随着人工智能技术的蓬勃发展,数据中心的电力密度已显著提升,使得液冷技术的应用范围不断扩大。目前单相冷却仍是主流方案,而双相冷却和浸没式冷却技术也正逐步成为替代选择。
这一现象由人工智能计算引发的功率密度骤增所导致,属于近期才出现的现象。JetCool公司创始人兼首席执行官伯尼·马卢安(Bernie Malouin)指出:“2000年代或2010年代的计算机处理器功耗仅在数百瓦左右,近几年整体功率水平基本保持稳定。”
Synopsys产品营销总监Marc Swinnen表示:“水冷系统曾在行业应用中较少。如今令人惊讶的是,它已变得如此普遍,几乎每套高性能系统都标配水冷。”
液冷技术形式多样,不存在万能解决方案。开发人员不能简单地强制采用液冷,而需甄别最优液体冷却方案。这一决策对数据中心基础设施影响深远。混搭不同液体冷却方式目前并不可行。
Rambus公司研究员兼杰出发明家StevenWoo说:“超级计算机行业一直是液体冷却技术应用的先驱,通常会在处理器上方放置一块金属板,若为HBM等内存,会覆盖其上方。该液体冷却装置内部中空,通过橡胶管进出,设有进液口和出液口,液体在连续回路中循环流动。如今,人们正在为实现完全浸没式冷却建立基础。”
在架构、性能和功耗的早期仿真阶段,必须尽早确定任何空气冷却方案。Synopsys公司SoC工程高级工程师Satya Karimajji强调必须从架构层面着手,从项目初期就确定功耗参数、热流密度及空气冷却方案。
需要明确的是,虽然功率密度推动了向液体冷却技术的转型,但这并非为了降低功耗。“关键在于如何在相同空间内传输更多信号,而非单纯削减数据中心的能耗,”Synopsys产品管理总监Rob Kruger指出。
空气冷却的问题
大多数数据中心及其它计算场所采用空气冷却系统。空气进入建筑后经冷却处理,随后被输送至架空地板下方,从而维持室内低温。服务器风扇将空气推送至芯片区域,空气受热后重新排入大气层。
该制冷系统虽含有液态制冷剂,但实际制冷过程并不直接作用于服务器等。空气冷却采用循环设计,通过持续引入新空气并排出加热空气来实现降温。该空气冷却系统虽能运行,但存在性能瓶颈,当温度超过特定阈值时,若不加大风扇负荷,其散热速度将无法满足需求,从而引发噪音超标等安全隐患。
西门子EDA创新路线图经理Robin Bornoff表示,风扇通过鼓风实现散热,风速越快,散热效果越显著。但存在物理限制,风扇体积越大,服务器尺寸也需相应增大,这将导致计算密度降低。
水作为冷却剂比空气更有效,但通常不会单独使用。博尔诺夫(Bornoff)说:“水的密度约为空气的1000倍,其导热系数是空气的20倍。与空气相比,使用水可以提取更多热量。”
这样一来,散热能力得到显著提升。当液体被泵入热交换器时,热量便转移出去。热量会使空气加热,但这一液体冷却过程发生在服务器机架之外的其它区域。
三种芯片冷却方式
液体冷却技术主要分为三种形式。其中最常见的是单相液体冷却,其冷却剂始终保持液态。该系统利用液体更高的导热性和热容量,其液体冷却效果优于空气冷却。
如今虽不常见但研究深入的双相冷却技术,其核心在于利用液态转气态时释放的大量潜热。斯温宁(Swinnen)说:“相变过程吸收的热量远超从0至100℃的温变过程,因此散热效率极高。与单相冷却不同,该液冷冷却技术使冷却剂真正沸腾,其散热能力远超单相冷却。”

图1:冷板单相与双相冷却概念示意图。图片来源:Bryon Moyer/《半导体工程》
如上图所示,单相冷却时,冷却剂保持液态在冷板单元(CDU)内受热。双相冷却时,冷却剂沸腾后,蒸汽被排出并重新冷凝,从而释放更多热量。
博尔诺夫(Bornoff)说:“沸腾是一种很好的散热方式,它是一种非常可靠的散热方法,但同样存在其局限性。”
即使液体处于沸腾状态,仍需保持与受热表面的接触。博尔诺夫解释道:“最终会在表面形成一层微米级厚度的水膜,热量被吸收至这层薄液膜中,随后传递给气泡。气泡随之消失,被新液膜取代。只要液膜中存在气泡形成过程,即可达到最高传热效率。”
当热流密度过高时,即单位面积的热量释放速度过快(以W/mm²为单位),若液体冷却系统无法及时调节,底部的水层也会随之蒸发。此时,与热源接触的不再是液态水,而是水蒸气,这本质上又回到了空气冷却模式。此时冷却效果将急剧下降。这种热流密度被称为临界热流密度(CHF)。
第三种液体冷却方案是全浸式冷却。该方案采用装满液体的水箱,将整台服务器完全浸入其中。所用液体必须具备绝缘特性,防止短路,同时需无腐蚀性,从而保持电子元件完好无损。全浸式冷却可采用单相或双相冷却系统运行。
在此情况下,液体仍需通过泵送进行冷却。最初,建筑内仅设有一台泵将冷却液均匀分配,但经评估发现,由于管道损耗等因素,该方案效率低下。目前,储罐已配备更紧凑的再循环装置,这类液体冷却装置因运行效率更高,故称作节能器。
浸没式冷却能从所有组件中带走热量,但其液体冷却速度较其它技术更为缓慢。马卢安(Malouin)说:“若以热吸收百分比为标准,浸没式冷却在这方面表现尤为出色,该液体液冷技术可将服务器近100%的热量导入冷却液。但由于冷却液本身的热学特性,单相浸没式冷却难以有效处理数千瓦级设备的散热需求。”
液冷应用的不同方法
浸没式冷却基本采用单一方式,而其它方法则存在不同变体。当前最普遍的实现形式是冷板技术,这类装置可直接贴合芯片封装,替代传统空气冷却所需的散热器。
Rambus公司的Woo指出:“在展会现场最常见到的装置,是那种装有流动液体的金属板。这种板会接触关键的半导体元件,通常还配有引导液体流动的凹槽。”
冷板的优势在于其为独立单元,可在组装时直接安装于封装内,且不会对封装内的芯片、芯片组或其它组件造成影响。
冷板的缺点在于,冷却液与芯片之间存在封装顶面、界面材料及冷板底部的隔离。主要热传导路径为:沿PCB板向下传递,或通过冷板向上传导。除焊料和金属线路外,中间材料均未选择导热性能优异的材料,从而在冷板与封装内容物之间形成热阻屏障。
冷板之外还存在一种技术,称为直接冲击冷却(Direct Impingement,简称DLC)或直接液冷(Direct Liquid Cooling,简称DLC),其原理是冷却液直接接触待冷却的芯片。冷却液可沿硅片背面流动或喷洒。由于冷却液直接接触芯片,能即时接触并更高效地导出热量。
当前面临的挑战在于,冷却剂必须与其它部分保持隔离,而这个问题目前尚未完全解决。采用多芯片的先进封装技术又带来了新的难题,若某个芯片是主要热源,空气冷却系统只能针对该芯片进行散热。但若存在多个高功耗计算芯片,每个芯片都需要单独冷却。尽管相关研究已取得进展,但大规模空气冷却应用仍处于起步阶段。
冷却剂
人们很容易将水视为最直接的冷却剂,但更常见的是水与丙二醇(通常按50:50比例混合,简称 PGW)的混合物。丙二醇与汽车防冻液(乙二醇)类似,都能扩大冷却液的液态温度范围。但防冻液仅描述了冷却液的低温特性,而汽车用冷却液因具有高毒性,通常只用于人类不会误食的场合。
丙二醇的毒性较低,但其沸点也较低,约为188°C,而乙二醇在1个大气压下的沸点为197°C。与水混合后,50%的丙二醇溶液将这些温度限制降至约105°C和108°C,虽高于水的沸点,但差异不大。
在浸没式冷却中,介电冷却液的设计既要高效,又要与人体和电子设备兼容。旧式液体冷却可能更具毒性,但现代冷却液需具备无毒、无腐蚀、不易燃和可生物降解的特性。现代冷却液的成本也高于PGW 。
吴(Woo)说道:“用于浸没的液体冷却非常有趣,它们具有电惰性。我将手放入其中,某公司允许我进行此项操作,但并未察觉其存在,因为它们不会发生反应。这些液体也不会与皮肤发生反应,因此不会产生不适感。”
冷却液还带来一个意想不到的潜在优势。与会散失到大气中的热空气不同,液体冷却在封闭系统中循环运行。“液体在机箱内外流动,随后进入热交换器进行热交换,液体冷却后重新循环回服务器,”吴(Woo)解释道。
这意味着冷却液中的热量可被转用于其它用途。目前已有初步研究提出一种液体冷却方案,将冷却液从数据中心引出,为周边居民提供热水。这样就能回收计算设备消耗的部分能源并实现循环利用。
博尔诺夫(Bornoff)说:“液体的优势在于能量可直接注入其中,这种储存方式能高效利用原本会流失的能量。为什么不将这些能量泵入本地家庭热水系统,为周边住宅提供热水需求呢?”
环境因素同样不容忽视。必须确保液体中不含“永久性化学物质”。
基础设施结构变化
从空气介质转换为液体介质,其影响远不止于芯片、服务器和机架层面。除极少数例外情况,整个数据中心都需要进行改造以适应液体介质的使用。
吴(Woo)解释,这个空气冷却基础设施需要泵和软管,同时具备可维护性。有高可靠性、低泄漏的阀门,可快速安装和拆卸服务器。空气冷却还配备有热交换器。对于浸没式应用,指的是直接在循环系统中的储罐。
若整层机架或整排机架采用液体冷却系统,则无需再设置架空地板。但需更换的基础设施包括管道系统及液体输送装置,液体冷却通常通过冷却剂分配单元(CDU)进行泵送。
Synopsys的克鲁格(Kruger )认为这些数据中心内部的管道系统设计可谓别出心裁。
这些液体冷却系统的管理方式与现有风冷方案截然不同。Alloy Enterprises联合创始人兼首席执行官阿里·福赛斯( Ali Forsyth)说:“关键指标有低压降和低热阻。这种液体冷却设计能让数据中心循环使用高温水,同时满足机架内设备的散热需求。这样一来既不用制冷系统,也无需抬升式暖通空调,节能效果立竿见影。”
每种冷却方案都有其专属的基础设施。因此,机架乃至整个数据中心通常都会采用同一种空气冷却方式。通常不会看到采用风冷时还另外采用液体冷却的情况。
冷板
冷板可按封装尺寸定制,但这种空气冷却设计忽略了封装内部热量分布不均的问题。若封装内仅含单个芯片,其表面就会出现温差区域。而采用多组件的先进封装方案,某些元件的发热量往往高于其它元件。
因此,部分空气冷却方案采用定制冷板,将空气冷却作用集中于热量最高产生区域。Alloy Enterprises运用3D打印技术,在冷板内部设计定制化液体导流路径。其最常用的冷却剂为含25%水的丙二醇。
福赛斯(Forsyth)表示:“我们研发了一种名为堆叠锻造的制造工艺,这种基于板材的工艺可使单件组件同时具备复杂的内外部几何结构。我们可根据需求在任意位置设置大型通道,并进行尺寸优化,同时在需要处设置小型通道。”
该空气冷却工艺不采用需烧结的粉末材料,而是通过多层金属堆叠构建冷板。内部表面经激光雕刻形成沟槽结构,用于引导冷却液流动。系统可配置多个冷却液入口,从而提升空气冷却效率。

图2:冷板经图形化处理,可将冷却液集中于封装件的热点区域。来源:Alloy Enterprises
福赛斯(Forsyth)解释道:“几乎所有3D打印技术都依赖于熔融金属或某种烧结工艺。使用液态金属制造微小部件确实存在困难,因为金属会通过毛细作用渗入微小孔隙。因此,我们能够制造出比其它金属3D打印工艺小一个数量级的通道尺寸。”
高温制造工艺可实现扩散焊接,使单个金属片材融合为整体。该工艺能有效避免传统金属3D打印可能出现的翘曲问题。所有部件同时受热,因此不会因温度梯度产生残余应力。
另一家名为HydroGraph的公司开展了两阶段实验,通过在空气冷却表面沉积材料来防止表面过于光滑导致过热。他们成功在铜表面制备了烧结镍层,在多孔铜镍界面以及沸腾表面上沉积了石墨烯。这种表面粗糙度的增加提供了成核位点,与裸铜相比,传热系数(HTC)提升了152%,且化学换热因子(CHF)比裸铜高出40%。
JetCool公司研发的直接冲击空气冷却技术堪称典范,其产品配备微型喷嘴,可将冷却液精准喷洒于芯片表面。该液体冷却技术提供三种应用场景:直接喷涂于硅片表面(这是最先进配置,特别适合高功率需求)、冷板式散热方案,以及专为无液冷基础设施机架设计的独立式散热单元。据称,该技术可为功率高达5000瓦的芯片提供有效液体冷却。

图3. JetCool的直接液体冷却系统,图片来源:JetCool
在JetCool的直接液体冷却系统中,液体通过最右侧端口(蓝色箭头)流入,并被强制通过喷射器(中间及插图所示)。热液体从左侧端口(红色箭头)排出。
该独立式冷却系统可替代现有服务器中的风扇,最高可节省15%的电力。马卢安(Malouin)说:“这类小型液体冷却回路通常安装在服务器内部,这使得我们的客户能够在任何风冷数据中心部署液体冷却系统,从而实现服务器能耗降低15%的目标。”
与Alloy的凹槽设计与热点匹配相同,JetCool的喷嘴也针对每个空气冷却封装进行了定制化定位。
部分DLC系统可能采用高压环境。“根据我们观察到的客户数据,基于喷射冲击效应,压力降差异可达40倍,”福赛斯(Forsyth)表示。
JetCool公司强调其技术路线与常规不同。马卢安(Malouin)说:“在相同流体动力预算下,我们能实现更优性能,因为我们完全不依赖压力驱动,通常我们会尽量降低压力损失,因为我们的空气冷却技术在流量强度最大化时表现最佳,而非依赖压力。”
业内人士普遍认为,这些散热方案各有优势,没有哪一种能完全取代其它空气冷却方案。冷板方案虽然结构简单、成本低廉,但DLC散热技术对高功耗芯片的散热速度更快。浸没式散热方案能实现整体散热效果更佳,因为它能同时空气冷却所有组件而非仅针对特定芯片,不过其散热速度可能不及DLC。
马卢安(Malouin)说:“当今计算环境的多样性意味着,各类空气冷却方案在市场中都占有一席之地,因为不同的工作负载、应用,以及部署方式和位置,都会产生不同的需求。”
在替换现有空气冷却基础设施时,增加液体冷却系统会形成障碍,但新建项目则相对容易。不过JetCool的自包含式单元可避免重复建设基础设施。这项投资的部分回报在于通过采用单靠空气无法有效液体冷却的芯片来制造服务器,从而提升服务器和机架的整体价值。
若数据中心计划采用高压直流输电(HVDC)技术,该技术将直流电压直接提升至机架位置,再降至可用电压水平,那么此时改造空气冷却基础设施也将是最佳时机。
吴(Woo)认为,当前正面临多重重大变革。业界热议400伏配电系统,甚至800伏电压方案。若计划对电力分配系统进行重大改造,建议同步实施空气冷却系统升级。
可维护性同样至关重要。输送冷却液的管道必须合理布置,确保服务器在必要时仍可被访问。由于更换部件时可能需要移开管道,可维护性可能更具挑战性。
浸没式冷却技术给设备维护带来了更大挑战。虽然可以单独拆卸服务器,但可能需要排空介质冷却液,之后再重新注满。浸没式冷却槽必须具备,这可能会对除被维护系统外的其它多个系统造成影响。
通常情况下,需通过浸没监测来检测过热情况,并重新平衡工作负载以控制温度。
新型冷却系统
目前,单相冷板和浸没式冷却技术的应用仍较为有限,但随着企业建设配备AI训练和高性能计算能力的数据中心,冷板技术有望获得更广泛的应用。英伟达的Grace/Blackwell机架已采用液冷技术,而支持液冷的机箱也已上市。
吴(Woo)说:“在SuperMicro这类厂商处可选购配备液体冷却系统的机架。这些4U机箱的上层2U位搭载Nvidia或AMD处理器,下层2U位则配备双插槽 Xeon 或EPYC处理器。访问SuperMicro官网,可查看带有液冷管道的机箱结构。”
冷板的配置方式可能因情况而异。有时冷板会直接与芯片配套销售。而在其它情况下,超大规模芯片制造商或服务器厂商会自行组装芯片、热界面材料(TIM)和冷板。
直接冷却技术正逐步普及,预计几年内将推出双相冷板。待技术过渡完成后,由于机架将配备相应设施,液冷系统将不再构成负担。
浸入式技术的应用预计将增加,但其实施难度高于冷板或DLC技术,且可能被更选择性地采用。
在适用情况下,对于处理低功耗硅材料的常规用途机架,空气冷却方案仍具优势。虽然液态冷却的运营成本可能更低,但必须确保基础设施投资的转换期达到合理盈亏平衡,方能实现经济可行性。
未来数据中心的液体冷却技术将呈现空气冷却、冷板冷却、直接冷却(DLC)和浸没式冷却的混合模式。这种混合方案既包含单相系统,也包含双相系统。虽然个别数据中心可能仅配置单一冷却方式,但预计整个数据中心领域都将采用这种混合方案。
广告
暂无评论