PG电子(中国)官方网站适用于数据中心和边缘应用的液冷技术应用的出现,都在推动对液冷技术的兴趣和部署。在本中,我们将介绍液冷的基本原理,探讨其与传统风冷相比的优势,并详述冷板式液冷和浸没式液冷的五大方法。为了帮助指导针对特定需求选择适当的液冷方法,我们将解释必须考虑的关键特性。
IT设备技术的变化一直是基础设施中制冷解决方案研发的主要驱动力。尽管液冷已在大型主机和高性能计算(HPC)中部署多年,但当今对云、物联网、人工智能和边缘应用的需求再次引发IT技术的变化,这迫使人们重新审视液冷及新技术的研发。对数据中心能效和可持续性的关注日益增加,也使数据中心行业所面临的压力不断增加,要求其开发和采用液冷系统等高效的制冷基础设施。
IT设备散热的主要方法是将气流流经设备机箱。对于常规的服务器,70%-80%的热量由CPU产生,其余热量则来自外围设备,例如内存、电源、机械硬盘、固态硬盘(SSD)等。随着图形处理器(GPU)的使用日益增加,IT机箱内部产生的热量也在进一步增加。一块GPU芯片的功率可以超过400瓦,和英特尔最新一代的至强处理器这样的多核CPU的400瓦功率基本持平。
在同样单位体积下,液体吸收热量的能力更高。因此液冷技术能够更高效地散热,以及让芯片能够更高效地工作(例如,提升时钟频率)。此外,热量可以通过干冷器,或者通过冷却塔(在温度较高的环境中)散发到大气中。有时,热量可以转移到其他地方(例如区域供热)循环利用。我们在附录中提供了水和空气之间传热能力的详细比较。
液冷对于数据中心应用来说并非新鲜事物。液冷的最初使用可以追溯到上世纪60年代,当时在IBM大型主机中用于解决固态设备的散热难题,这些固态设备包装紧凑且容许的工作温度较低。不过,在上世纪90年代初,随着互补金属氧化物半导体(CMOS)技术的出现,取代了双极型半导体技术,功耗也随之降低。结果,气流对流冷却再次成为IT设备默认的制冷方式。
目前,气流对流冷却在数据中心中仍占主导地位,但是液冷在电竞游戏、区块链挖矿和高性能计算(HPC)应用等需要采用更高算力的特殊服务器的场合中,得到了更广泛的采用。液冷尚未在整个数据中心行业得到更广泛的采用,主要原因在于通过增加逻辑核心数量来保持合理的功率极限,已能够满足计算需求。此外,数据中心行业普遍较为保守,新技术和架构的普及缓慢。
液冷主要分为两类:芯片级液冷(有时称为导热或冷板)和浸没式液冷。如图1所示(橙色框),这两个类别共包含五种主要的液冷方法。在本节中,我们将详述每种方法。
芯片级液冷是在服务器内部通过芯片顶部的冷板将冷却液直接流经温度较高的服务器芯片(CPU或GPU)。IT设备的电子元器件不会与冷却液直接物理接触(参见图2)。部分设计还会为内存模块也安装散热冷板。使用这种方法的时候,仍然需要采用风扇提供穿过服务器的气流,以带走剩余的热量。这意味着传统的风冷基础设施可以减少,但仍然需要。
可以使用水或绝缘液作为流经冷板的冷却液。如果使用水,出现泄漏时有宕机风险,但是诸如防漏系统(LPS)之类的解决方案可将水回路保持在微真空状态,以降低IT设备内的泄漏风险。
安装在机柜背面的分液器将流体配送至IT设备,类似于机架式PDU供电。服务器和分液器之间的接口通常是通过防泄漏和防滴漏接头实现,以确保装置的清洁和安全。单相意味着流体在散热时不会改变其形态。对于芯片级液冷,主要使用单形态的水基冷却剂,但某些设计使用人工绝缘液。
此方法类似于上述方法,不同之处在于流体会有两种形态,也就是说流体在散热时会从一种形态变为另一种形态,例如从液态变为气态,从而带走热量。在散热方面,两相优于单相,但需要额外的系统控制用于确保正常运行。对于两相芯片级液冷,会使用人工绝缘液。这有助于消除IT设备进水的风险。绝缘液蒸气可以输送到室外的冷凝器,也可以将其热量排到楼宇水回路中。图3为此方法的图解。
采用浸没式液冷时,冷却液与IT电子元器件直接物理接触。服务器完全或部分浸入绝缘冷却液中,使其覆盖主板和元器件,以确保所有热源的热量都被转移。此方法使用单相绝缘液。借助浸没式液冷,服务器内可以无需使用任何风扇,并将所有电子设备置于受外部温度影响较慢,而且不受湿度和污染物影响的环境中。由于无需使用风扇,因此这种冷却方式可实现近乎无噪音运行。
图4为IT机箱单相浸没式液冷方法。服务器封装于密封机箱中,可作为普通机架式IT设备或独立设备。电子元器件由绝缘液进行冷却,可通过传导和自然对流被动降温,或者通过服务器内的循环泵(强制对流)降温,或两者结合使用。换热器和泵可置于服务器内部,也可以安装在侧面,在这里,热量将从绝缘液传递到水回路。
使用水池方法(也称为开放式水箱)时,IT设备完全浸没在流体中。在传统的IT机柜中,服务器从机柜的底部到顶部水平堆叠。但是,这种方法使用的是水池,因此就像将传统服务器机架横放一样。浸没在水池中的服务器是通过垂直方式进行插拔,而不像普通机架是水平方式插拔。图5所示为此方法的示意图(橙色箭头显示将服务器在水池中插拔的方向)。这种方法多数采用集中式供电,同时向水池内的所有服务器供电。使用泵或自然对流,通过换热器将绝缘液中的热量传递至水回路。此方法通常使用油基绝缘液作为流体。注意,换热器可以安装在水池的内部或外部PG电子。
和单相水池方法一样,将IT设备完全浸没在流体中。这种方法的不同之处在于采用两相绝缘液冷却剂。这也意味着流体在散热时会从一种形态变为另一种形态,例如从液态变为气态,从而带走热量。图6为这种体系结构的图解。由于需要相变,因此必须为人工合成流体。
了解五种主要液冷方法的优缺点,可以帮助数据中心业主为其数据中心选择合适的解决方案。在本节中,我们将详述在针对特定业务需求确定最佳液冷方法时需考虑的11个重要特性。
在评估液冷时,必须考虑整体设施和IT系统的成本。如果是新建的设施,可以针对液冷进行优化,并利用温水并通过流体冷却器直接散热,与风冷相比,则可以节省投资成本。如果想要在已有的风冷设施中部署液冷IT设备,改造成本可能更高。但是,在数据中心拥有搁浅的供电和空间容量时(当制冷系统达到100%负载但UPS负载远低于100%且空间利用率也低于100%时,就存在搁浅的电源容量和可被利用的空间。),液冷可以充分利用这些被搁浅的供电和空间。
•芯片级液冷:50%-80%IT设备的热量可通过液冷捕获。将水引入每个机柜并将其分配到每个服务器会使成本增加,但这部分成本可以通过减少传统冷水机组、精密空调及变压器和开关柜等辅助供电系统设备的使用而得到抵消。
•浸没式:超过95%的热量通过液体散热,从而有助于大幅减少传统制冷系统的使用。IT设备会因为使用流体,特别是人工合成的流体而导致成本增加,因此,必须根据部署的浸没式技术来了解这一权衡方案。
与风冷相比,液冷一直都以可提供卓越能效而著称。超大规模数据中心运营人员已经能够让风冷数据中心获得出色的电源使用效率(PUE),但通常是在良好的气候条件及水资源丰富的情况下才能做到这一点。液冷的另一个考虑因素是降低IT风扇能耗。这可以节省4%-15%的能耗,但有可能会使PUE更差,但总电费会减少。与芯片级液冷相比,浸没式液冷略有优势,因为后者无需使用任何IT设备风扇。此外,采用浸没式液冷时,所需要的风冷将减少,因此精密空调的风扇也减少。液冷可以利用45°C/113°F的水进行冷却,在众多气候条件下,一年中的大部分时间都可以使用无需压缩机的制冷方式。对于通常使用风冷DX系统的边缘应用,液冷的节能效果更为显著。
风冷系统的应用已有数十载,因此数据中心运营人员对此系统极其熟悉,但是液冷对于大多数运营人员而言仍是新事物。尽管设施人员可以从减少电源和制冷设备维修和维护中受益,但是IT人员必须实施新的流程来对IT设备进行维护。
•芯片级液冷:它与风冷服务器类似,因为大多数组件都能以相同方式进行维护。让这些组件易于维护的关键是采用防滴漏连接器,以确保服务器能够像传统的风冷服务器一样从机柜中抽出进行维护。
•浸没式液冷:这需要新的流程,有时需要新的设备。采用油槽时处理难度较高,原因在于拆卸和维护IT设备时很难清除上面的油。人工合成液体的处理难度小于油,但由于液体成本较高,因此必须注意确保液体清洁并尽可能减少损失/蒸发。
基于机箱的浸没式冷却解决方案旨在以熟悉的外形尺寸和服务流程(如与标准风冷技术配合使用的尺寸和流程)来提供液冷。当液体仍在机箱中时,也可以完成简单的维护任务。主要维护工作需要抽空液体。本的主要关注点是关于IT设备的部署、操作和维护的简易程度。注意,由于浸没式液冷为IT组件提供更温和的环境,因此使用此方法可以提高IT设备的可靠性。
风冷可以支持机柜平均功率密度达到20kW/机柜以上,但要实现这样的水平需要大量的人工和成本支出。芯片级液冷和浸没式液冷均可轻松处理20kW/机柜的密度,并且有能力支持超过100kW/机柜的密度。浸没式液冷可以实现更高的密度,因为不需要考虑IT设备内部空气流动的问题。
芯片级液冷和浸没式液冷均可提供优于风冷的显著可压缩性效果。芯片级液冷和基于机箱的浸没式液冷能够采用与传统的机柜相同的垂直服务器安装形式。
许多风冷数据中心依靠配有冷却塔的蒸发冷却系统来实现低PUE。但这会消耗大量的水。在世界许多地方,这已经成为问题。由于液冷可以使用温度为45°C/113°F甚至更高温度的温水,因此可以消除或大幅减少蒸发冷却,同时仍能达到较高的效率。由于浸没式液冷相比芯片级液冷可以带走更多的热量PG电子,因此该方法能够让数据中心大幅减少耗水量。
浸没式液冷不需要任何气流,且与外部环境隔离,它几乎可部署于任何地点。与风冷相比,这是一个优势,而且有可能推动在环境恶劣边缘地点中使用浸没式液冷IT设备。
任何在运行中的数据中心内工作的人员都对IT设备和精密空调的噪音不陌生。对于部分IT应用(如有人使用的办公室或无尘室),维持安静的环境和避免空气流动都是非常重要的因素。芯片级液冷仅需要少量气流,从而大幅降低IT设备和精密空调风扇的转速,进而降低噪音。浸没式液冷无需风扇,因此,除了用于绝缘液的循环泵,即可在室内实现近乎无噪音运行。
由于浸没式液冷不需要气流流经IT设备,因此它为数据中心白区以及边缘区域带来更大的灵活性。不再需要布置冷热通道。可采用背对背机柜行布局。这样可以将IT设备置于风冷可能无法使用的位置PG电子。这在空间有限的设施中可能是一个较大的优势。
由于芯片级液冷IT设备仍然需要使用风扇,因此仍需要采用传统布局。此外,任何使用机箱形式的外观特征,可以轻松与现有数据中心布局相匹配,这在某些情况下可能是一个优势。
从制造角度来看,对生产液冷服务器感兴趣的IT制造商需承担不同程度的设计工作。芯片级液冷是对现有风冷服务器改造为液冷的理想之选。需要对IT设备进行小幅改动。此举能够让现有的供应链几乎保持不变,仅需增加冷板和管路即可。而另一方面,浸没式液冷服务器需要从头开始设计,要执行时间更长的产品开发项目。尽管如此,这种方法为IT设备设计人员提供了更大的自由度,因为它们不受风冷组件的限制。从现场改造的角度来看,浸没式液冷需要为IT设备配备水槽或新的机箱,因此改造成本更高。如果将基于机箱的浸没式制冷技术引入现有的数据中心,则可以非常轻松地与芯片级液冷及风冷系统配合运行。浸没式液冷IT设备尚不适合许多配置。
芯片级液冷和基于IT机箱的浸没式液冷均能够以较小的增量实现扩展。基于水槽的浸没式液冷需要部署整体水池和流体,尽管IT设备可以在水槽内逐步部署。另一个需要考虑的因素是了解整体设计中的单点故障。
在液冷方法中使用的流体类型是确定其部署适用性时需要考虑的重要因素。这些是直接冷却IT设备热量的流体。三大类别如下:
这三种流体的特征各不相同,包括传热性能、成本、安全、材料兼容性、使用寿命、可维护性和可持续性。表1提供了哪些流体适合本所述的5种液冷方法。
材料兼容性:在任何使用水的系统中,减少腐蚀并保持水质是非常重要的考虑因素。某些材料不兼容,可能导致早期故障。目前冷凝水系统已经经过数十年的设计和运行,已经成为众所周知的散热系统。对于芯片级液冷,过滤非常重要,因为许多冷板都是采用毛细管道,如果水质较差容易产生堵塞。对于浸没式液冷,与IT组件的兼容性至关重要。主板上纸标签脱落,以及增塑剂从电缆中渗出一直是某些油和人工合成流体存在的问题。
使用寿命:与人工合成流体相比,油的使用寿命往往更短。流体的更换频率将对总体拥有成本产生影响。
安全:闪点、着火点、自燃点和毒性是重要的考虑因素,尤其是在考虑设施的投保性时。例如,矿物油易燃,需要安全预防措施以防止起火。
环境:臭氧消耗潜能值(ODP)和全球变暖潜能值(GWP)是需要考虑的两大因素。这些数值不能孤立来看,而是随着使用方法和气化的速率会影响向环境的释放。密闭式vs.开放式系统、可回收性等均起到一定作用。
尽管当下的数据中心和边缘环境仍以风冷为主,但我们看到对采用液冷的兴趣和价值正日益增加。云、物联网、人工智能和边缘技术的应用正推动芯片和机柜功率密度的不断提升。行业也持续关注能效和成本。对于许多应用而言,液冷是最佳的制冷解决方案。芯片级液冷和浸没式液冷是液冷的两大类别,与风冷相比,它们对数据中心所有者而言更具优势。在本中,我们解释了这些方法之间的差异。
对于改造机房,基于机柜的解决方案(例如芯片级液冷和基于机箱浸没式液冷)提供最简单的改造。对于新建机房以及处于恶劣环境中的机房,浸没式液冷是更优的解决方案,因为它可以带走所有热量,并将IT设备与周围空气隔离。
如若让液冷在数据中心行业得到更广泛的应用,还需要进一步的努力,但是我们相信,未来几年这项技术将在数据中心和边缘应用中占有一席之地。
与诸如水之类的液体相比,空气的导热能力远远不如液体。实际上,在非对流环境中,空气是良好的隔热体。水有着更高的密度和每单位体积的热容量。表A1提供了空气和水之间的热导率和热容量的比较,结果显示水的热导率是空气的23倍以上,并且其可以吸收的热量远远大于空气,按单位体积计算约为3,243倍。
非纯水具有导电性,因此不能用于直接冷却IT组件。相反,采用绝缘液(例如矿物油和人工合成的绝缘液冷却剂),可以与运行中的电气组件直接接触,从而发挥其卓越的散热能力。一个已经使用多年的例子,就是变压器中使用的油,可以有效地将内部线圈和机芯的热量传递到外壳。以下传热公式描述了如何将热量从物体转移,如同CPU或GPU的表面:
ℎ:为传热系数;A:为可用的散热表面积;Ts:为散热表面温度;T冷却液是用于冷却的冷却剂温度。
根据此公式,散热器的目的是增加散热面积。空气在强制对流下的传热系数约为100W/(m2·K),而水的传热系数约为3,000,这意味着与空气相比,水的传热系数高出空气30倍。我们还知道,水的比热容远高于空气,这也意味着当我们从IT设备传递相同量的热量时,液体所需的流速要远低于空气,进而节省大量能源。