当前位置:首页 > 机房建设 > 正文

数据中心容量危机应吸取的教训

2010-01-20 网界网 编辑:王啸

  2005年,美国能源部西北太平洋实验室(PNNL)的数据中心存在的问题到了紧要关头。

  美国能源部管理的政府实验室的数据中心服务经理Ralph Wescott说,意外的中断几乎每个月都会发生,每一次中断都会使数据中心关闭几个小时。机构正在购买越来越多的机架式服务器增加计算资源。机架式服务器最近变得越来越便宜。在2005年7月,数据中心曾达到其容量的极限。Wescott说,机构会购买一台服务器,然后扔给我说,“嗨,安装这台机器。”但是,我没有空间、电源或者冷却容量来安装这台机器。如果我再安装一台机器,整个房间就会停电。

  Wescott和PNNL(美国能源部西北太平洋实验室)参加了一个广泛的项目以便在不突破预算的情况下升级自己的数据中心。在最近三年的每一个季度里,这个数据中心组都有用一个周末的时间关闭服务器房间,用效率更高的设备更换一些老式的服务器和地板下面缠绕的网络电缆线,从而用较少的在天花板上布线的电缆线连接更强大的服务器。这种新的配置允许在这个房间里进行效率更高的冷却。

  这个结果是什么?PNNL把在500台服务器上运行的500个应用程序转变为在150台服务器上运行的800个应用程序。

  CIO.com的姊妹分析公司IDC的技术、金融和执行战略计划经理Joseph Pucciarelli说,在经济紧缩时期,实施这种信息技术项目需要严格控制钱袋的带子。他说,这种情况是很常见的。企业正在进行及时的投资。企业遇到一个问题,他们正在以克制的方式看待这个问题。

  下面是PNNL把数据中心从容量极限恢复到正常状态的过程中学到的一些教训。

  1.规划,不要做出反应

  Wescott要解决的第一个问题是数据中心组对发生的每一个小问题立即做出反应,而不是观察这个系统性的问题和创建一个计划以建立一个可持续的服务。除了这500台服务器之外,这个数据中心还有3.3万条电缆线连接这些服务以便进行供电、连接网络和安全系统。他说,我们确定这个数据中心应该是什么样子,应该是什么容量。

  这个小组的结论是,按照当前的轨道发展,这个数据中心在10年内将达到3000个应用程序,每个应用程序都在自己的服务器上运行。现在,这个数据中心的应用程序有81%都进行了虚拟化,每台服务器平均运行17个应用程序。Wescott计划把虚拟化的比例提高到90%。

  IDC的Pucciarelli说,企业应该把重点放在三个方面来提高容量。减少物理服务器的数量和在虚拟机上运行应用程序有助于减少电源需求,就像更有效的冷却系统和配电系统的改善所做的那样。这一般是更新数据中心的时候要做的三件事。

  Pucciarelli曾遇到许多企业用两台或者三台大容量系统替换50台服务器并且使用虚拟化允许自己的应用程序。

  2.管理措施

  PNNL的Wescott说,管理数据中心经理需要监视数据中心状态的方法,但是,他们经常没有合适的工具。在改变之前,PNNL没有办法衡量自己的数据中心的效率。当房间黑了时候,发现了电源问题或者通过更直觉的方式发现问题。他说,如果我们的电源线通过太多的电流,我发现的一个方法就是把手放在断路开关上,如果感觉发热,我就知道遇到问题了。这表明你现在需要工具。现在,PNNL在每一排的第四台服务器的底部、中部和顶部都配置了一个传感器以创建一个服务器机房的3D热量图。这个数据能够让Wescott改变他冷却数据中心的方式,提高整个温度和把冷却应用到你需要冷却的地方。

  Wescott说,我认为那将为我节省许多钱,减少空调的磨损。他现在预计数据中心的冷却效率提高了40%以上。

  3.采取小的步骤

  Wescott说,在不中断运营的情况下彻底重新设置数据中心是一个大问题。数据中心经理主张采取小步骤以最大限度减少中断,但是,把这个决定留给他的经理。

  Wescott说,我向管理层提出了两个选择。我们用7天时间处理整个园区的事情;另一个选择是每一个季度在周末关机一次。

  通过采取小的步骤,这个组准备一次更换数据中心的一排服务器。在第一个三天的周末,这个30个人的团队在数据中心一天用了14个小时更换一排服务器机架并且测试新的配置。这个数据中心立刻变得更可靠和稳定了。

  如果管理层不同意允许数据中心关机,要提醒他们最好有一个计划的关机的时间,不要突然的无计划的中断。当一艘船在大海中航行的时候,你不能给这艘船的船底刷油漆。但是,如果你不刷油漆的话,这艘船就会沉没。

  4.为长期的增长接受短期的痛苦

  管理层在这个过程中不能不投入一些额外的资金以达到省钱的目的。为了减少冷却系统的能源消耗,Wescott的小组评估了水边节能装置。这个装置使用水和外部的温度冷却服务器机架。虽然他们预计使用环境冷却系统从长远看可能会省钱,但是,水边冷却装置使冷却设备的价格超过了预算的10%。然而,Wescott与厂商合作把这个价格降到了预算之内。他说,他们一次又一次地得到了回报。

  5.发现你不知道的东西

  为了改造数据中心,经理们还需要找到能源消耗很少或者没有增加的地方。数据中心的一个常见问题是幽灵服务器和流氓服务器。幽灵服务器是已经部署的但是一直没有使用的服务器。幽灵服务器仍然耗费电源,但是对于数据中心的核心工作没有任何帮助。流氓服务器是某些人放在办公室中的、数据中心外部的服务器。这种服务器不遵守数据中心人员强制执行的任何规定。这些服务器会浪费许多能源预算。

  每天晚上应该关闭空调的大楼为了保持这些流氓服务器的运行需要保持空调的运行。虽然自从他开始改造数据中心以来只发生一次无计划的中断(由于一天极热的天气和冷却系统故障),但是,Wescott知道他还没有完成这个工作,只能阻止这种不可避免的事情。

  Wescott说,我们进行了计算。在未来五年里,由于增加存储设备,我们将没有可用的房间。我们在那个房间里可能将没有地方。

大家都爱看
查看更多热点新闻