AI算力驱动散热方式变革:数据中心液冷散热技术分析

生成式AI和各种大模型给我们带来全新的算力散热数据散热应用体验 ,也对算力提出了更高的驱动需求。对于数据中心运营管理者而言,式分析由于GPU服务器的变革功率密度大幅提升  ,对数据中心的中心制冷设备和技术提出了更高要求。因此,液冷他们除了关注算力本身之外 ,技术也更加关注数据中心功耗与散热所带来的算力散热数据散热各种问题 。

一、驱动AI算力驱动数据中心散热方式变革

在AI算力需求的式分析强力驱动下,数据中心GPU服务器的源码下载变革数量大幅增加 ,所带来的中心功耗问题日益突显 。我们知道,液冷数据中心单机柜风冷的技术极限总功率为15kW,在机柜上架率不变下,算力散热数据散热GPU服务器所带来的功率增长已经逼近单机柜的极限值。然而 ,GPU的功耗还在不断地增长。

今年NVIDIA GTC2024上,英伟达正式发布了GB200旗舰级GPU,这款产品包括两个 GPU内核 ,亿华云每个内核功耗约为1200W  ,同时还拥有两个Arm CPU,功耗在300W左右,那么仅仅这个产品的总功耗就达到了恐怖的 2700W左右。不难发现 ,面对高功耗高密度场景 ,传统的风冷显然已经无法满足能耗和散热需求,液冷技术以超高能效 、超高热密度等特点,成为智算中心温控解决方案的必选项。

根据IDC的预测,源码库2022-2027年 ,中国液冷服务器市场年复合增长率将达到54.7% ,2027年市场规模将达到89亿美元。

北京最新发布的《北京市算力基础设施建设实施方案(2024—2027年)》对智算中心运营绿色化提出了明确的指导意义,指出本市新建和改扩建智算中心PUE值一般不超过1.25  ,年能耗超过3万吨标煤的大规模先进智算中心PUE值一般不超过1.15  。推进本市存量数据中心升级改造  ,到规划期末所有存量数据中心PUE值均不高于1.35 。

今年初,上海市通信管理局等11个部门联合印发《上海市智能算力基础设施高质量发展 “算力浦江”智算行动实施方案(2024-2025年)》(以下简称《方案》)提出,到2025年 ,本市智能算力规模超过30EFlops ,占比达到总算力的云计算50%以上 。其中,在绿色智算效能方面 ,《方案》要求到2025年,市新建智算中心PUE值达到1.25以下 ,存量改造智算中心PUE值达到1.4以下 。智算中心内绿色能源使用占比超过20% ,液冷机柜数量占比超过50% 。

实际上,浪潮、曙光、联想等服务器厂商都在先后投入到液冷技术的研发上 ,并推出了自己的专利产品  。

二 、服务器租用液冷散热系统的主要优势与不足

液冷散热系统的主要优势在于较高的散热效率和更低的能耗  。

我们知道,在传统风冷数据中心中 ,用于设备制冷散热的能耗高达40% ,且散热效率并不高 。受其限制,数据中心常规风冷一般设计为8-10kW的单机柜密度 。由于液冷技术的导热能力是空气的香港云服务器25倍 ,带走热量是同体积空气的近3000倍 ,可轻松拥有30kW以上的单机柜密度 。

与此同时 ,部署液冷散热系统之外 ,由于数据中心不再需要部署大量的空调制冷系统 ,因此能够节省大量的空间,进一步提高在单一机房内的机柜部署密度 ,提升数据中心单位面积利用率。

虽然数据中心液冷散热系统拥有诸多的优势,但同样存在许多挑战。目前来看 ,主要存在以下几个方面的难题:

一是缺乏统一标准。无论是冷板式液冷技术,还是浸没式液冷技术  ,目前行业还没有一个统一的技术和建设标准 ,虽说百花齐放的状态更有利于技术的发展  ,但同时不同的标准也给企业带来了选择难题和后期管理维护难题 。

二是建设成本过高 。相较于传统的风冷式散热 ,液冷数据中心的建设成本仍旧过高。另外 ,在一些老旧数据中心的改造方面 ,投入成本过高  。

三是后期管理维护难度大。液冷技术发展快 ,且缺乏统一的技术和建设标准 ,给后期管理维护带来了较大的难题 。

四是安全问题。由于材料 、制造工艺 、连接方式、维护使用等多种因素的影响 ,冷板与电芯之间的密封性可能会导致冷却液泄漏的风险  。泄漏不仅会损害系统的性能和可靠性,还可能对周围环境造成污染和安全隐患 。

三 、液冷散热主要技术

目前,主要的液冷散热技术主要有以冷板液冷系统为代表的间接液冷技术和以浸没式液冷系统为代表的直接液冷技术 。由于两者在散热设计上不同,散热效率也有着很大的不同。

一)间接液冷散热技术

间接散热技术是通过冷板等介质与CPU、内存、GPU 、硬盘等表面进行接触,利用冷却液的流动 ,将热量带走 。除了冷板等介质之外 ,间接液冷散热技术还包括热交换器 、管路、泵、冷却液、控制系统等部件。

目前  ,冷板式液冷系统已经成为间接液冷散热技术的主要解决方案  。间接液冷散热技术的主要优势在于不需要改变现有服务器的形态,设计技术难度低 ,部署难度相对较小,后期运维管理难度相对较低。此外,由于冷却介质大都采用乙二醇水溶液 ,成本更低。

不足之处在于散热效率相对较低 ,并且由于组件较多  ,故障率相对要高一些。目前,冷板式液冷系统已经成为大部分数据中心的选择方案。

二)直接液冷散热技术

直接液冷技术是将CPU 、GPU  、主板、内存等直接与冷却液进行接触,通过冷却液体直接流经硬件表面吸收并带走热量 。目前,直接液冷散热技术有浸没式液冷系统和喷淋式液冷系统 ,根据冷却介质是否发生相变又可分为单相浸没式和相变浸没式。

与间接散热技术相比 ,直接液冷技术的液体与热源之间没有中间传导介质,热量能够更直接地传递到液体中,因此散热效率更高  。不过 ,直接液冷技术由于需要对整个数据中心进行重新改造与设计 ,因此难度更高,部署成本也更大。

目前 ,直接液冷技术主要用于对散热效率要求较高的场景中。

写在最后:

毋庸置疑,液冷散热系统一定是数据中心未来主流的散热技术。

目前来看,冷板式液冷系统由于更加成熟,因此将成为率先进入数据中心的主流液冷散热技术,而影响冷板式液冷散热技术普及的成本、运维 、安全等问题,也将随着技术的发展,以及标准的统一得以解决。

当然 ,随着技术的不断发展 ,浸没式液冷系统也将被广泛应用到高密度的新建数据中心 ,进一步提高数据中心的散热效率 ,并大幅提升算力水平  。

滇ICP备2023006006号-51