专家:如何解决数据中心散热问题机房建设
随着服务器集成度的提高,数据中心机房单机架的功率大幅提升。据统计,现在最新的刀片式服务器机架功率高达15kW,台式服务器机架功率为1.5kW,模块式服务器机架功率为5kW。高耗电必然产生高发热,这使得局部发热变得很厉害,温度梯度变化大,通风降温处理复杂。空调短时间的停机或制冷量不足,机房温度会迅速升高到极限温度,造成服务器全部报警甚至停机。据相关数据显示,我国有近33%的机房曾因为空调制冷问题出现过宕机现象。高耗能的计算机使数据中心陷入困境。
从目前看来,空调系统制冷量或送风量设计过小、机房大环境气流组织不合理、机柜内部小环境气流组织不合理、机柜发热量过大、机柜排列过于密集等问题是导致局部过热的主因,解决这些因素,应从机房的规划设计、制冷系统设计和设备选型、应用维护等三个方面着手予以分析论证,并给出高密系统的解决办法。
一、数据中心机房的规划设计
1、对机房进行分类明确定义功率密度。根据机房数据设备安放与耗电密集度,将机房分为高负荷机房、中负荷机房及低负荷机房三种,其单位面积和单机柜耗电指标、单机柜设备配置数量限值。
2、减少机房受环境影响。对于新建机房,可以考虑外墙的朝向,将机房设计在建筑的东侧或北侧,在相对一侧留有走廊等通道。机房内尽量不设计窗口,选用密封性能好和自动关闭式的防火门。
3、适当的机房面积。大型数据中心机房不宜正方形,而是适应长条形,经济面积宜为500至800平方米。
4、合理布置设备。布置数据中心设备区域,应根据设备种类、系统成组特性、设备的发热量、机柜设备布置密度、设备与机柜冷却方式等,合理考虑机房区域、机柜列组、机柜内部三个层面的精密空调设备制冷的气流组织。设备布置应明确划分冷热通道,以保障送风气流直接送至冷通道。当机柜内或机架上的设备为前进风/后出风方式冷却时,机柜或机架的布置宜采用面对面、背对背方式。
热通道间距应大于冷通道间距,以有利于热通道散热。一般采用地板下送风上部回风的气流组织方式,其送风通道和回风通道均可在需要的位置开设风口。采用架空地板作为送风静压箱,架空地板的高度应根据负荷密度、机房面积综合确定。地板下面禁止走线缆、水管,以防止阻塞风道。
二、制冷系统设计和设备选型
目前数据中心的冷却系统都必须符合可扩展性和适应性、标准化、简单化、智能化、可管理化等五种关键要求。当前的设计思路和设备没有解决的、最为紧迫的核心问题是数据中心适应变化能力较差。数据中心冷却系统必须对不断变化的要求有更强的适应能力,对不断增长和无法预测的功率密度制定规划,同时要设计出冷却系统适应能力强甚至易于改进。数据中心设计中最重要的一个部分就是冷空气的供应和排出的热空气的回流路径,这对于高密度环境极具有挑战性,因为气流速度必须克服空气分配和回流系统的阻力。故要解决冷却系统的问题,就需要对现行的设计思路进行改进,主要包括冷却设备技术和设计的改进,以及如何测定数据中心的冷却要求等。
1、选用高效机房专用空调设备
(1)机房空调机组根据冷源及冷却方式一般可分为风冷、水冷、双冷源机组等,对于机房热负荷较小或采用地板送风方式受建筑条件限制的中、小型数据中心机房,可考虑采用管道上送风方式,并使送风口尽量接近机架;对于高发热密度的大、中型数据中心机房,优先采用水冷式空调制冷机。北方地区采用水冷冷水机组的机房,冬季可利用室外冷却塔作为冷源,通过热交换器对空调冷冻水进行降温;大型的数据中心可采用中央空调。中、小型数据中心机房,可考虑采用风冷式空调制冷机,但必须保证室外机有足够的安装空间。空调系统可采用电制冷与自然冷却相结合的方式。
(2)空调机组一般采用大风量小焓差设计,配置直联、高静压、无级调速风机的空调机组。采用高效节能的涡旋压缩机,高效EC电机驱动风机,无涡壳外转子风机叶轮,风量要满足90换气次/小时,风压需满足最大300Pa可调的要求。
(3)冷量应与机房设备的额定发热量建立函数关系,一般采用机房的总冷量等于机房UPS额定可用容量的1.3-1.5倍作为经验数值。这需了解其配置的压缩机规格,并联空调机组运行的相互影响程度,当以冷量计算粗选各厂家相近的空调设备时,必须对其送风量进行复核,处理焓差应按≤2.5Kcal/Kg干空气左右选用。尽管很多空调产品显冷量比例很高,但实际工作温度下显冷量下降多;即使空调输出冷量足够,但机房热岛效应严重,故负载发热量与空调额定制冷量配备比在1:1.5以上比较合适。
(4)选用模块化组合机组。通过主从控制,主机将多台模块所采集的温、湿度参数取其平均值,实现步调一致的效果。
(5)在布局空调时,机组送风的距离不宜过大,专用空调最佳送风距离为15-16米。空调室内机安装高度应高于机房面100-200mm,以减少相邻空调机组间扰流影响,减轻备机停机时气流倒灌,避免引起气流短路。还须减少送风路径、降低加空地板下PD,以保证PJ/PD≥3。(PJ:各送风口处内外静压差,PD:至各送风口架空地板下风速)。
(6)由于风冷直接膨胀式机房精密空调的冷却极限约为4KW/m2,当机房环境的热负荷超过5KW/m2时,如用传统方式的机房专用空调来解决,会有局部热点存在,必然需要精密空调增加为高热密度负荷提供良好的微环境调节能力,这势必要在空调机组系统控制和气流组织设计上进行革新;而不仅仅是简单的增加机房精密空调的装机容量。
2、空气分配系统配置
数据中心机房空调系统冷量与风量、送风与回风、风管与风口设计的具体数据取值均应遵从《采暖通风与空气调节设计规范》、《通风与空调工程施工及验收规范》和电信机房空调工程设计手册的规定。如今数据中心空调配套系统迫切需要建立起能反映机柜内温度、机柜排风侧垂直温差及反映能节能、提高空调制冷效率以消除机房平面温差,作为全空气型的下送风,必须做到随时随地应用基本公式Q=G*ΔT*C(Q:总冷量,G:风量,ΔT:温差,C:比热系统)。
(1)室内送风机风量和风压能适时调节。应能根据热源大小不同来调节分配出风口的冷气量。送风口的风量调节方便,风向调节便于相对机柜上部形成自由射流,而相对机柜中下部外表面形成贴附射流,依据送风射流的一般规律,只要同时保证送风口面积F与送风口速度U0达到一定值,那么就能确保机柜工作区送风主体段轴心风速UX。地板送风口数量应保障每个服务器机架均能有足够的冷却风量,送风口位置宜设在服务器机架进风处。地板送风口风速宜在1.5-3.0m/s间。对柜底地板出风方式,应保证机房内每个出风口的基本出风量都能达到15m3/min以上(即所有近距离柜底出风口均打开,且调节至15m3/min时,最远端出风口的最大出风量仍不小于15m3/min)。对于过道地板出风方式,当机柜采用面对面、背靠背排列时,应保证过道内每600mm长度上输出的基本出风量达到50m3/min以上;机柜采用统一朝向排列时,应保证过道内每600mm长度上输出的基本出风量达到25m3/min以上。若使用高负荷机柜,则出风量也应相应加大(刀片服务器系统进气口需要大约1,180升/秒的冷空气)。
(2)根据机房室内状态点及热湿负荷,可由湿空气焓湿图确定送风状态点。进而得出空调机组供冷量、再热量、加湿量及送风量。按相关规定,送风温差宜控制在6~10℃。
(3)大型数据中心机房空调适合长边侧进风,不宜短边侧进风。下送风走向与机架走道同向,不宜与架间走道垂直。
(4)建立冷热通道围栏系统。为进一步阻隔冷热空间的混和,可利用隔热能力极强、熔点很高的乙烯基塑料隔板(VinylCurtain),一方面密封热通道的两边出口,另一方面包围冷通道的整体范围,使冷空气与热空气的隔绝,以便更好地调节机架顶部到底部的空气温度。
(5)为了避免大型机房内近处出风量过大、远处出风量过小的不均衡现象,应在机房地板下架设多条大口径主输风管延伸至机房最远端。
(6)当机柜内设备的发热功率密度明显过大,无法通过机房大环境中冷热气流自然对流方式解决降温问题,导致机柜内温度严重超过设备运行允许温度范围时,为加快机柜内热气的排走速度,可选择在底部和后部加装强迫散热装置的机柜,如安装轴向水平的强排风扇。
3、合理布置机柜机架,提高设备散热效率
(1)合理布置机柜对于确保机柜拥有适当温度和足够的空气非常重要。采取"面对面、背靠背"的机柜摆放及将空调设备与热通道对齐方式,这样在两排机柜的正面面对通道中间布置冷风出口,形成一个"冷通道"的冷空气区,冷空气流经设备后形成了热空气,再被排放到两排机柜背面中的"热通道"中,最后通过热通道上方布置的回风口回到空调系统,使整个机房气流、能量流流动通畅,不但提高了机房精密空调的利用率,而且还进一步提升了制冷效果。
图1机柜或机架面对面、背对背的布置方式
(2)机柜气流和机柜设计是引导空气最大限度改进冷却效果的关键因素。机柜对于防止设备排出的热气短路循环进入设备进气口至关重要。热空气将被轻微增压,再加上设备进气过程中的吸力,将可能导致热空气被重新吸入设备进气口。气流短路问题可能导致IT设备的温度上升8℃,其结果的将要远远大于热气造成的影响。
由于模块化数据网络设备基本上是水平方向进出风(最常见的方式是前进后出),因此空调制冷气流也应符合这种气流组织:尽量将冷气送到所有数据设备的前方位置。
采用标准机柜和盲板可以大幅减少气流短路比例,能消除机架正面的垂直温度梯度,防止高温排出空气回流到机架前部区域,并确保供应的冷空气在机架上下配送均匀。
下送风机房机柜前后门的设计应符合最佳制冷效率的要求,有2种方式可选择:
a)前门完全密闭,不做通风孔;后门通风网孔大小为Ф5,后门通风率30-40%,这种方式,由机柜底部调节的开口,在机柜内设备正面送冷风,由后门和机柜顶部散热;每个机柜需要侧门,侧门不带通风孔,冷风通道完全在机柜下方。
b)前后门底部起1/2密闭,不做通风孔,机柜上部1/2为通风散热部分,通风网孔大小为Ф5,通风率30-40%,这种方式主要出风口在机柜的底部,同时可以在机柜列间通道开辅助送风口,在机柜内设备正面送冷风,由后门和机柜顶部散热。每个机柜需要侧门,侧门不带通风孔。冷风通道在机柜下方和机柜列间通道。
机柜内数据设备与机柜前、后面板的间距宽度应不小于150mm。
机柜层板应有利于通风,为避免阻挡空气流通,层板深度应不大于600mm。多台发热量大的数据设备不宜叠放在同一层板上,最下层层板距离机柜底部应不小于200mm。把热负荷最大的设备安装在机柜中部位置,以便获得最大的配风风量。
机柜底部采用活动抽屉板,随设备多少,改动冷气入口大小。机柜底部后半部堵住,阻止冷空气从底部向后面流去。
三、加强数据中心维护管理
一旦冷却系统设计安装完成,为保证系统的高性能,进行后续检查工作是很重要的。更重要的是,要维护从服务器排出的热空气到空调装置的回流空气管道之间的洁净通道。很多因素都会降低现有冷却系统的运作效率和功率密度能力。故在日常维护管理注意以下几点:
1、进行"健康检查"。
检查总的冷却能力,确保数据中心的IT设备对冷却的需要没有超过总的冷却能力。
检查所有风扇和报警装置是否运行正常,确保过滤器的清洁状态。
检查冷却器和外部冷凝器及初级冷却回路的状况。
检查数据中心通道中重要位置的温度。
记录每套机架底部、中部和顶部的空气入口处的温度,并与IT设备生产商的推荐值进行比较。
检查可能影响冷却性能的机架间隙(没装挡板的闲置机架空间、没装挡板的空刀片插槽、未封闭的电缆开口)或多余的缆线。在机架中安装挡板,实行电缆管理制度。让设备底部流出的热空气可以通过机架内未被利用的纵向空间回到空气入口处,使设备没有必要升温。
2、启动冷却系统维护制度。应该实行定期维护制度,以达到冷却设备生产商推荐的指导方针。空调调试时只重视单机运行工况调测,忽视空调机组联合运行之空调综合能效调测,应静态模拟终局运行之设计要求N台机组同时运行时每台机组送风机的风量、机外余值、各送风口处内外静压值。
3、将高密度机架分开。如果高密度机架紧密聚集在一起,则大多数冷却系统的冷却能力都不够用。建议建设部门与业务部门配合,建设部门应将验收测试的结果提交业务部门,作为总体指导规划各租户安装使用区域,提供差异化服务(个别耗电量大的通信机柜应优先安排在高静压区域以便得到高出平均值的冷量)。
4、制定各数据中心机房用户上架规范。根据各数据中心机房的设计数据和后期整改情况,明确规定各机房的机架最大用电量、机架最多上架服务器数量和服务器安装间隔等强制性要求,指引业务部门发展用户和保障整个机房安全。
5、及时封堵地板孔隙、清除地下障碍物并封闭地板间隙、及时开启对应区域空调机组、主动定期测试各机柜排风侧温度以便进行调整各机柜送风量及内向,及时根据装拆动态情况调整各机柜进风量。对现用设备所做的空调系统调节应以总冷量、总送风量及温度数据为依据。
6、服务器的风扇尽可能低速转,尽可能让冷空气在服务器待的时间长,提高温升,温升若能达到13℃以上最好。
7、建模计算智能散热系统。基于空调工程、计算流体力学与传热学理论,按照DCTA热模型的设计方法,采用相关专业软件如Tileflow和Flovent等软件经过计算,建立起数据中心机房的基本CFD(计算机流体力学)模型,在激活模型后,根据数据中心不同的布局场景进行CFD模型模拟分析,得出不同场景数据中心的温度场分布图,以及其它相关数据结果,指导机房整体布局。
四、解决散热难点的方法和策略
1、高密度机柜环境制冷方法规模越大、密度越高,冷却系统越复杂。表2给出了每种冷却系统相应的解决方法。
2、应用高密度机柜和刀片服务器有六种基本解决方法:
(1)分散负载。将负载超过平均值的机柜中的负载分散到多个机柜中。
(2)基于规则的散热能力转借。通过采用一些规则允许高密度机柜借用邻近的利用率不高的冷却能力。
(3)安装气流辅助装置。使用辅助散热设备为功率密度超过机柜设计平均值的机柜提供所需的散热能力。在有足够平均冷却能力,但却存在高密度机架造成热点的场合,可以通过采用有风扇辅助的设备来改善机架内的气流,并可使每一机架的冷却能力提高到3kW-8kW。
安装特制的(栅格式)地板砖或风扇增强CRAC(计算机机房空调)对机柜的冷空气供应。
安装特制的回流管道或风扇从机柜中排出热空气,使机器排出的热空气回流到空调。
(4)安装自给高密度设备。在功率密度接近或超过每机架8kW的场合,需要将冷空气直接供应到机架的每一层(而不是从顶部或底部),以便从上到下的温度保持一致。
(5)设定专门的高密度区。在房间内设定一个有限的专门的区域提供强散热能力,将高密度机柜限制在这一区域内。
(6)全房间制冷。为机房内每个机柜提供能够为期望达到的功率峰值提供电力和散热的能力。这种解决方案的结果会造成极大的浪费和极高的成本。此外,每个机柜的整体机柜功率密度超过6kW的数据中心进行设计需要极复杂的工程设计和分析。这种方法只有在极端情况下才是合理的。
3、高功率机柜散热问题的策略
根据以上提供的信息归纳出一种对大多数安装情况都比较适合的高密度计算设备时优化散热实用策略。