云宕机“逆袭”或对公有云产生积极影响云和虚拟化

2014-06-09    来源:TechTarget中国    编辑:Trevor Jones
错误不可避免,而且在云端,逐渐变得可以为人们所接受。上个月在一些最大的提供商上演了新一轮的云宕机事件,但是似乎这些意外时间并未影响公众对于云计算的认知。

  错误不可避免,而且在云端,逐渐变得可以为人们所接受。上个月在一些最大的提供商上演了新一轮的云宕机事件,但是似乎这些意外事件并未影响公众对于云计算的认知。根据分析师的说法,客户逐渐将宕机事件看作是不可避免的,而且厂商也逐渐对于其系统失败采取更加透明的态度。

  Gartner分析师Lydia Leong表示,企业随时都会有宕机,没人期望云提供商是完美的,而且云提供商也没期望自己就是完美的。

  Cloud Technology Partners的高级副总裁David Linthicum认为,冗余系统、灾难恢复和故障修复计划并非新鲜事物,而且IT人员开始清醒地意识到,在云端也没有什么差别。Linthicum指出:“这和多年前我们在内部系统中所做的事情相同,大家只是更加明白了这一点。”

  上个月,亚马逊Web服务(AWS)遭遇了区域连接问题,以及其虚拟私有云的应用程序接口错误率大约为一小时,同时Rackspace的客户在五月份尝试针对云块存储创建大容量规模时出现了间歇性的可用性问题。

  重大的宕机会消耗企业成本,降低客户满意度,但是厂商已经理解了需要同客户就宕机进行实时的沟通。

  Joyent云宕机

  位于旧金山的云提供商Joyent可能是五月份最尴尬的云宕机,该公司的一位管理员同时重启了其东海岸区域的所有虚拟服务器。随后恢复的用时大约在20分钟和两个多小时。

  这次失败归因于人工操作错误,该公司提供了事件剖析,概述了切向的编译问题(the compilation of tangential issues),这个问题可以让一个员工忽略两个字符,从而“干掉”了整个数据中心。

  失败已经发生,但是提供商敢于承认错误,并且进行修正,Joyent CTO Bryan Cantrill在采访中谈到。

  “大家都理解人工错误,因为我们都在反坐,”Cantrill说道,“但是他们不理解且不应该理解的模糊、隐晦和静默。”令高管们惊讶的是,大多数的反馈是积极的。也有客户抱怨,但是远远小于预期的,Cantrill谈到并没有企业要求终止合约,“这种极不正常的方式加强了我们同客户之间的关系。”

  Linthicum认为,云提供商可能更适合处理宕机,因为他们是其核心业务模型的中央。他使用了业余时间宕机的例子,内部系统要求IT人员下班后返回办公室来解决问题,但是云提供商可以持续的有人来处理这个问题。

  Linthicum指出,云宕机也比很多专家预期的问题要少很多,他还没听说过任何云提供商有重大的客户数据丢失问题。但是这种对于云宕机的感知可能是产业区域性的。

  Leong说:“我们很容易看到云宕机,提供商会说‘太糟糕了。’企业通常将云提供商宕机看作是整个产业的象征,相反如果是一次性的事件就没有这么大的而影响。”
Technology Business Research的分析师Matthew Healey表示,一些期望可能不公平,但是没人责备厂商,只能自认倒霉。“他们站出来说‘我们非常可靠’,现在他们创造了一些标准却不遵守。”

  公有云的吸引力在企业间不断增加,虽然在现有基础架构中仍存在持续的安全和投资担忧。虽然宕机可能不是主要的原因,但是对于一些IT人员而言却是绊脚石。Healey使用了飞机和汽车的类比。虽然飞机旅行更为安全,但是人们用汽车会感觉更加脚踏实地。

  为不可避免的结果做准备

  虽然宕机不可避免,但是IT人员不应该盲目进入云端。可靠的备份系统、故障修复和意外事故计划是必须的,就像成本分析必须定期进行一样。传统IT外包合同涉及了法律团队,和数千页的法律语言,Healey说,同样的云合同也远远不够完善。

  “云合同也处于发展阶段,因此我觉得正在做的更好,但是并没有解决所有的问题,”Healey说,“在解决这些问题的过程中会面临更多的痛点。”

  云提供商服务水平协议通常提供每月的计算可用性为99.95%或者更高,而且针对宕机的服务信用通常和宕机持续时间划等号。

  Cantrill并未揭露宕机会消耗公司多少成本。他说这一点显而易见,但是他不期望看到长期上出现一些财务衍生问题。Cantrill说:”如果我们的客户感到迷失或者受骗,很明显他们就并不会进入公有云了,如果能够透明且快速的解决,可以加速人们对于云计算的采用,因为人们知道可以有所保证。”

1
3