服务器发热是多大的问题 刀片服务器
数据中心中的某些服务器机架每年能耗可达800千瓦/机架,而且还会不断增加。未来会怎样发展?
数据中心密度在过去曾是世纪末日一般的话题,这也许可以解释为什么许多IT组织仍然徘徊于4~6千瓦/机架的能耗密度。但电源与散热管理已经准备向着大于10千瓦的服务器机架进行设计。
暴涨的处理器核心数与机架级刀片服务器设计让机房空调(CRAC)和电力成本增加似乎是无法避免的。但高密度并不会像设计师担心的那样杀死服务器。虚拟化、高效节能硬件,主动冷却抑制与更高的可接受运营温度协同配合,将延缓并减少热能消耗。
发热是多大的问题?
与为每个工作负载配置一台服务器不同,一台中等配置的服务器,配合虚拟化管理程序可以支持10、20甚至更多工作负载。设施的机架空间可能因各种负载被虚拟化后而空闲出来。
同时,芯片由更高密度的晶体管级制造工艺以及更低时钟速打造而成,因此设备更新时,处理器核心数的螺旋上升几乎不会影响机架的能量消耗。
缩小规模,数据中心内已经有了更多能充分利用的服务器,因此需要的机架也减少了,这已经改变了我们如何应用冷却的方式。与冷却整个数据中心不同,利用宏观的空气处理策略,如热/冷空气通道实现空间中空气对流,运营商实施抑制战略,将经营面积缩小在几个更小的空间,甚至一些机架中。利用行内或机架内部冷却系统来处理这些发热,甚至可以关掉机房空调(CRAC)。
此外,美国采暖、制冷与空调工程师学会(ASHRAE)组织亦建议提升有效服务器进风口温度到80甚至90华氏度。
随着这些能源管理的发展,不大可能出现热点与冷却不足的情况,通常来说都是设计不当或不良的设施改造造成的。
热点与其他冷却问题
即使使用最好的抑制策略与高效率冷却系统,机架中的服务器热点任然会因为计算设备次优选择或放置而产生。
意外的障碍物或空气流路偶然变化可能产生热量。举例来说,拆下服务器机架的护板,让空气流入机架计划外的位置,会削弱流动到其他服务器的空气,增加出口温度。
大幅度增加服务器能耗,同样会引起散热问题。例如,用高级刀片服务器系统替换几台1U服务器,会极大提高机架的能源开销,并且空气流量不足会直接影响到刀片机的所有模块组件。如果冷却系统不是为这样的服务器而设计,很可能经常出现热点。
在增加服务区机架密度时,运营组织需要考虑投资数据中心基础设施管理和其他系统管理工具,收集来自机架内热传感器所提供的数据并生成报告。它们可以发现超过发热限制的情况并采取必要措施,如通知技术人员,自动调用工作负载迁移或关闭系统,以防止设施过早失效。
当服务器机架规划产生热点时,IT团队可以重新分配硬件。与填充单个机架不同,若空间允许,移动一半或一、二架设备到其他机架上,或关闭过热的系统。
如果空间不足以进行重新设计,加入一些可移动、自带空调并可在数据中心内使用的冷却设备。如果机架使用紧凑型行内或机架内冷却单元,设置温度点可以比打开密闭单元,增加冷却设备更有效的实现冷却效果。
长期缓解策略
从长远来看,突破性的技术能够帮助热量管理。
水冷式机架可以通机柜门或其他路径传输冷却水。水冷式机架能能够解决大部分发热问题——尤其当只靠低温空气和高温空气对流散热不起作用时。
中浸没式冷却技术可以将服务器浸入充满像矿物油,却非导电、非腐蚀性冷却物质的浴缸中。这种技术有望实现高效率、几乎没有噪声以及接近零损耗的热传输。
然而,这些热门技术选项更适合于新数据中心架构,而不是普通的技术周期更新。