谷歌使用人工智能提高数据中心的能源效率绿色数据中心
在第二天的会议上,他解释并分享了谷歌的使用效率(PUE)与他们总结的一些提高数据中心能源效率的技巧。
“在过去的八年,数据中心行业广泛的采用PUE作为一个用来提高数据中心的能源效率的参数,”卡瓦说。“但PUE在其目前的形势下还是有其局限性。这是因为现代的数据中心是一个复杂的,由多种机械,电力设备和控制系统相互作用形成的综合体。
“在我们追求极致效率的过程中,我们找到了一款新的工具——机器学习。”
在解释谷歌如何使用机器学习,并分享其数据中心工具的技术白皮书 之前,卡瓦为广大的数据中心运营商给出了一些建议:
挑战你的假设
数据中心的运营商和管理者不应该只是简单地被动接受所赋予的指标和工具,而应当考虑:这些指标和工具到底有多好,多实用?是否真的能帮助数据中心减少设备的能源使用。
突破操作参数的界限,但要巧妙地做到这一点
“突破界限,但要巧妙地通过在试验环境的虚拟机上测试你的新想法,然后再将其投入生产,来做到这一点。”
尽可能使用所有的数据
“如果你想获得更好的效率,数据是非常重要的。每个数据中都蕴含着故事,但要充分利用所有数据可能并不容易。所以,要准备好使用相关的工具,以便能够从所有的数据中发掘出隐藏的宝贵东西。”
对能源效率的痴迷
这将是有助于建立起一个可持续的数据中心设施的唯一的方法,卡瓦说。节约能源就等于节约成本。“我们沉迷于节约能源,我们一直在寻找更进一步减少我们的能源使用的方式。”
总是提醒自己PUE值应该是多少,而不是当前是多少
“除非你知道PUE值应该是多少,否则你永远不知道自己做得好还是差。”
考虑各种可能性
机器学习只是谷歌已经确定能够带来更有效的能源使用的一个可能性。“但是,肯定还有其他可能的途径能够帮助提高数据中心的能源效率。因此我们需要不断探索。”卡瓦说。
谷歌如何使用人工智能提高PUE
“我们数据中心团队的工程师Jim Gao对于机器学习相当痴迷。”卡瓦说。“在意识到我们可以利用数据中心的数据来做更多的事情后,Jim研究了机器学习,并开始建立预测模型来提高数据中心的性能。”
团队的机器学习模型就像其他的机器学习模型一样,如语音识别(通过计算机分析大量数据以识别模式并从中“学习”)。
“最好是让机器能够进入大量的数据,因为他们不会像人类一样由于长时间捣弄数字而厌烦,而且他们更准确。”卡瓦说。而人类想要看到的所有变量:包括IT负载、外面的空气温度等的相互作用也是相当困难的。
数据中心团队利用其在日常工作中通过日常设施运行所收集的数据,并将其通过与模型来运行,帮助做出复杂的交互。该模型将评估与数据中心的能源分析相关的19个不同的变量:如服务器负载,运行冷水机组的数量,外界空气温度,室外空气湿度,服务器负载等。
由此产生的相关见解,给了该团队如何探索节能提升效率的信息,甚至包括执行维护任务或技术更新。
“Jim的模型现在预测PUE值的准确率为99.6%。这意味着我们可以想出新的方法来从我们的运营中提升效率。”卡瓦说。
几个月前,谷歌让其一家数据中心的一些服务器离线脱机了几天。“通常情况下,这将使数据中心能源效率更低。但我们利用Jim的模型来暂时的改变我们冷却装置,在这段时间内降低了PUE。
“这样小的调整,在一个持续的基础上,能够带来显著的能源和成本节省。”
卡瓦分享的技术白皮书详细介绍了Gao的机器学习模型和对数据中心运营商,工程师和管理人员查看系统的要求。
“这并不需要一个超级集群或超级计算机来实现。我们实施PUE机器学习模型是在一台服务器上运行的。你也可以将其在一台台式机上运行,这完全取决于企业的规模。”他说。
但他同时警告说。“模型的关键在于你的数据。如果我们分析的是一堆垃圾数据,那么我们得到的也是一堆垃圾。
“我们已做相当多的数据清理工作。如果你企业打算走这条路,我会建议你企业的工程师在机器学习方面先做一点研究,否则准确度将不会很高。”