全方位提升高密度计算数据中心建设
2010-01-13 比特网
当前不计成本的高性能计算时代已经一去不复返了,解决尖端问题的高端系统同样也必须降低成本。为了避免由于服务器爆炸性增加而造成机房面积过快扩大以及随之而剧增的各种运行维护费用,机构数据中心要求大幅度缩小服务器(以及存储设备和网络通信设备)的占地面积、提高计算密度、发展高密度计算。这一方面要求采用新的服务器设计和器件实现更高的计算密度,另一方面要求建设能够支持高密度计算机系统安全稳定运行的数据中心,即高密度计算数据中心。
近十年来,服务器功耗增加了15倍。机架的供电密度也提高了10倍。过去一个机架功耗为2-3 kW,现在却往往高达20-30 kW。这一切都造成机房耗电和内部发热量急剧增加,给解决高密度数据中心供电和散热问题带来了严峻的挑战。
高密度数据中心虽然与大多数数据中心一样也必须致力于提高能效,但它们在供电和散热两方面都对机房基础设施的容量规划和电源和制冷设施建设提出了更高的要求。从设计角度来分析,建设高密度数据中心必须从如下三方面着手(详见[1]):
• 合理配置机架和空调设备,通过定量计算每个机架的功率密度和热负荷,优化服务器设备在机架中的布局以及机房内机架和空调的布局,为高效供电和散热创造条件;
• 优化供电设施,给每个机架供给足够和适度的电力,满足高密度计算的需要;
• 优化散热制冷系统:把高密度计算元器件在每个机架内部产生的高热量带出机架,避免由于局部高热点而影响设备的稳定运行,甚至损毁部件、造成灾难性的后果;
合理配置机架内部设备
许多机架成行排列是现代数据中心机房特征景观之一。机架是数据中心机房内安装各种设备(服务器、存储和网络设备等)的重要组件,也是整个散热基础设施的重要组成部分。例如,各种服务器、存储与网络设备的机箱就是插入在机架中,通过各种线缆联接成为高密度计算系统。因此,解决好机架的供电和内部的散热等问题是提高高密度计算系统散热效率的关键。为此,首先要合理配置机架内部设备。
随着服务器功耗的提高,传统的数据中心往往不得不把机架大多数容量空置、来避免供电不足和过度发热,这显然不利于高密度数据中心的建设。反之,如果机架过满又很可能会超出机房供电和散热的能力。因此,必须从定量计算机架功率密度和热负荷出发、合理配置机架内部设备,从而充分利用机房供电和散热的能力,奠定建设高密度数据中心的基础。
服务器功耗和机架功率密度
每台服务器在出厂时均附有一个标称额定功率,它标明了该服务器的最大使用功率,但这并不代表实际使用功率。为了了解服务器实际使用功率,往往需要利用厂商提供的在线功率计算器计算服务器在当前配置时的功率需求。这种在线功率计算器实际上是一个Microsoft Excel 电子数据表,在输入了服务器所配置的处理器的频率、处理器数量、内存卡容量规模与数量、PCI卡数量、硬盘容量规模与数量之后,能够自动计算出该服务器有关功耗与发热量的参考值。
至于,如何计算在一个标准机架中可以容纳多少台这样的服务器和估算一个机架内服务器的功耗会更加困难。因为计算功耗需要参考多个变量(如每个机架内的服务器数量、每台服务器组件的类型和数量等)。对于机架而言,一个非常有用的标准是功率密度,即每机架单位的功耗(瓦/单位)。功率密度包含了机架密度所涉及的所有变量。
机架的热负荷的计算
实际上,计算机所消耗的电源几乎全部都转变成了热量。计算机所产生的热量一般以英国热量单位BTU/小时来表示,1瓦等于3.413 BTU/小时。因此,可以按照下式来计算出机架热负荷:热负荷=功率[瓦]x3.413 BTU/小时/瓦。 例如,一台惠普公司制造的DL360 G4服务器的热负荷为:460瓦x3.413 BTU/小时/瓦=1,570 BTU/小时。一个42U机架容纳DL360 G4服务器的热负荷将近65,939 BTU/小时。
机架布局的规划与配置
数据中心的配置主要环绕功耗和热负荷与机房供电和散热能力的配合。IT 设备厂商一般会在其产品规格中提供功率和热负荷信息,在设计高密度数据中心时,必须根据厂商提供的数据估算每机架的功率和热负荷,进行数据中心机房规划。规划中,需配置足够的电源、并留有足够的余量,既要避免因配置容量不足而影响设备正常运行,又要避免因留有余量过大而导致能效降低。在设计和建设高密度计算数据中心时必须评估各种设备的电源需求与热负荷,进行合理的机架配置。比较好的方法是静态智能散热技术,通过使用流体动力学模型进行模拟、根据已明确的数据中心设备的热负荷,来确定冷却资源的最佳布局和供应量。它可以将每一个空调设备的散热负荷与其额定功率进行比较,以判断空调设备是否得到了高效的利用或过分“供应”。
提升数据中心供配电能力
高密度计算数据中心中的机架经常是满载的、功率很大,过去一个机架功耗为2-3 kW,现在却往往高达20-40 kW。早期的机架配电方式已经无法满足高密度设备机架不断增长的电力需求。因此,必须采用创新的机架配电技术来满足为高密度机架供应充足的电力并确保持续稳定运行的要求,包括:
• 支持高电压和三相电源:传统数据中心利用单相电流工作,其功耗已经不能满足现代高密度计算的需要。因此要求改用三相电源,使用称为高电压交流电源的208伏、三相系统。三相电源通常比单相电源更加高效。此外,与单相电源相比,三相电源更为稳定,更多时间都可处于峰值电压,降低供电损失和发热,不仅能够为满载刀片服务器的机架提供足够功率,而且能够更加稳定持续供电,确保系统的安全稳定运行,从而为支持高密度数据中心供电提供一种通用且经济的电源;
• 使用分段配电技术,能够降低由于过载或维护所引发的意外宕机机率,并减小管理员连续打开多个服务器组而产生的浪涌电流,提高供电的安全性;
• 支持通过冗余电源实现设备的冗余操作:冗余电源系统需要两个配电电路,分别用于两个电源总线。如果一个总线出现故障,另一路总线仍可处理整个系统的负载;
• 提供电路监控功能:通过部署可持续监控电流负载的组件,数据中心可以使用少量人力实现高效运行管理。各系统可轻松实现配电电路负载均衡,防止因过载或设备损坏而引发的意外宕机。为了简化管理,用户可以选用模块化 PDU 管理模块,利用它们来监控数据中心的电源环境。当前市场上已有很多新型配电装置(PDU)可供选择,其中惠普公司新型的模块化PDU在每个机架上集成了插座、电缆与断路器,提供一系列领先的特性支持高密度机架稳定安全稳定运行和节电:
• 采用节电配电机柜:通过将数据中心的集中配电改为区域配电方式,将配电管理移到“区域”级,解决了从机箱到机架的集成电源管理问题,并提高供电效率;
最大限度提高散热资源利用效率
为了满足实际的要求,高密度计算中心机房设计必须考虑多方面的因素,包括:优化机房布局,如机房的几何形状设计以及CRAC设备的功率和摆放位置,建立隔离的冷通道和热通道,消除可能造成数据中心内气流混合的布局;消除影响空气流通的因素,如优化机架线缆布局、预留足够的通风空间、整理活动地板下方的电缆等;提高散热的效率,如提高送风区的静压、设立天花板回风区、建立双送风区、在天花板上的安装换热器等。实际测试表明,这三方面的最佳实践能够较大幅度提高散热资源利用效率,支持高密度计算(详见[1])。
更重要的是,高密度数据中心内部热源分布和发热都非常集中的特点,推动机房散热系统设计从集中散热向按需散热模式发展。传统的散热系统设计大多采取集中制冷模式,将机房考虑成一个均匀空间,按现场最大需求量来考虑。这种模式忽视了发热点的局部性和机房内各部分的实际需要,散热效率较低、成本较高。造成不少数据中心虽然过度供电、过度制冷,但仍然不能满足高密度计算的需要。随着高密度大型数据中心的建设需求的发展,人们逐渐认识到集中散热的弊端和按需散热、防止出现瞬间和局部过热点的必要性。
当前最有效的散热技术是动态智能散热(DSC)技术。它的一般原理是,在机架上和数据中心内的关键部位安装传感器,采集监控点的功率、温度和压力等数据;这些被监测数据将通过设置在机架顶上的基站集中并通过内部局域网传输到系统管理控制器;系统管理控制器将比较监测数据与设定阈值,并用专门算法计算出针对每个制冷设备、智能通风口等散热设备的相应控制参数,然后以控制命令方式使制冷设备调节冷却温度、鼓风机调节转速以及智能通风口调节风门大小,从而达到有针对性地供应散热资源并及时消除过热点。发现重大的异常还可以发出报警通知,请求人工紧急处理。
动态智能散热方法是建设高密度数据中心的重要技术之一,它能通过传感器与相应管理软件使数据中心内的计算设备与散热基础设施实现互动,不仅能够显著提高数据中心的散热效率、实现40-50%的节能效果,而且能够及时发现和消除瞬时和局部的热点、确保数据中心安全运行(详见[1]).
随着微处理器和刀片技术的发展,从服务器、存储到网络通信数据中心所有部件全面的刀片化已经成为IT技术未来的发展趋势。这一股“一切刀片化”的浪潮,必然会推动IT设备的功率密度以更大幅度飞速提高,也必然会对高密度数据中心建设提出更高的要求。本文基于[1]介绍的合理配置机架内部设备、优化供电设施和优化散热制冷系统等三项举措仍将是支持未来高密度计算数据中心建设行之有效途径。