数据中心新技术遇故障分析陷入无解境地的根因 绿色数据中心
这些技术之所以新就在于提出的时间都比较短,有的协议甚至还没有形成标准,只是存在一些草案,标准的不统一使得诸多网络厂商在协议实现的时候就会有所差异。网络领域历来就是信息技术里最封闭的一个行业,很多厂商尤其的巨头厂商都喜欢搞一些个性化的技术,在满足客户差异化的需求基础之上,形成了自己的一套封闭技术体系,这样的封闭技术不利于整个行业的技术发展。这样的现实情况就导致新的技术在数据中心实施时,各个厂家实现标准有差异,设备对接会出现各种各样的问题。现在的数据中心里是很难找到服务器全是一个品牌或者网络设备全是一个品牌的,这就让新技术面临着各种对接实现的问题。而且这类问题,双方设备厂商都说自己的实现有道理,没有问题,因为协议本身还没有一个行业标准,就算有标准,具体实现上也可能会有差异。这就让新技术在数据中心实施时困难特别不好解决,厂商之间互相推诿。一些大型的数据中心因采购量大,厂商还能够积极配合,对于中小型数据中心就没有那么幸运了。遇到这样的问题,数据中心新技术就无法快速的实施,甚至最终导致项目流产。
除了新技术标准不一的问题,数据中心自己也有不少问题。由于新协议,数据中心运维的人员掌握有限,甚至不知道这些协议是何物。按照厂商提供的配置指导,勉强部署下去。真的遇到问题时,甚至故障时,根本不知道怎么去分析,根源在于对这些新技术一点不熟悉。有些老员工对传统协议的理解根深蒂固,分析问题的思路和观念还转变不过来,对新鲜事物的理解不到位,这都导致遇到问题时,解决非常吃力。这些新技术的初衷是让网络更加有效的运行与工作,而实际上,却起了相反的效果。由于人为的原因,一项好的技术根本没有充分发挥出优势。尤其在故障恢复方面,分析传统网络的时间要比分析新网络的时间要短得多,这样故障给数据中心带来的损失就小。我们不仅缺少数据中心人才,更缺少对新技术精通的高技术人才,这样的现实环境让新技术在数据中心部署和运维时,困难重重。
对于新技术的不熟悉,可以通过持续的学习来提升。但是对于数据中心出现故障时,需要不同设备之间配合分析就困难了。比如FCOE协议,这是一个需要在存储设备、以太网络设备、服务器之间配合运行的融合技术。我们经常会遇到这样的问题,比如在存储设备上看不到服务器了,在以太网络设备上只能看到存储设备等等这类问题,这些要仔细查看设备之间的协议交互。但是网络设备的工程师并不会看服务器上的信息,存储工程师也不会看网络设备上的信息,这就使得问题分析进行不下去。实在没有办法,只能通过重启设备看是否能恢复,重启还无法恢复,就彻底没有办法了,有时数据中心会将分属不同部门的三类工程师聚集在一起去分析同一个问题,由于技术能力有限往往分析不出结果来。而要想将存储、服务器、网络厂商的技术人员同时都请来分析,那么不是每个数据中心都有能力做到的。这样故障的时间被大大加长了,给数据中心带来的损失难以衡量。
对于这些新技术,就算是懂行的技术专家,遇到问题时也可能束手无策。因为是新技术,所以各种设备在实现协议时还不完善,很多分析的手段也没有,各种历史记录也不完善,这就导致在分析问题时无手段可以参考的,只能靠猜。由于这些新技术定义的协议类型比较新,很多设备都不支持显示与查看,所以根本无法查找问题的产生根源。经过多年的积攒,网络运维形成了一系列定位问题的手段,比如流量统计、镜像等这些手段在新技术面前无所适从,对于新技术的问题分析,需要设备厂商和数据中心的技术人员共同学习与进步。现在不少的网络设备厂商已经关注到了这点,通过软件手段增加一些定位分析的手段。网络设备是实现这些新技术的基础,所有的新技术都是基于网络实现的,在网络设备上丰富各种监控、记录、查看新协议的手段,才能在遇到问题时,有章可循。
数据中心迎来了发展的机遇,这是一个充满变化和进步的时代,新技术推动了整个数据中心行业的发展,有着不可替代的作用。不过新技术在数据中心部署和运维时也遇到了不少实际问题,不过不用担心,数据中心从来都是一个充满矛盾,充满竞争的行业。这就需要每一个从业者不断学习,一一解决这些实际问题,这需要全行业的不断学习与进步才能战胜这些困难,相信随着新技术的标准化、普及,这些问题一定会迎刃而解,新的技术一定会给数据中心带来新的活力。