数据中心自动化的利与弊绿色数据中心
2015-08-14 来源:机房360 编辑:佚名
一旦云服务公司达到了一定规模,网络规模的数据中心经济学开始有了很大的意义,最新的主要服务提供商Salesforce公司看起来像是已经越过了这个门槛。
一旦云服务公司达到了一定规模,网络规模的数据中心经济学开始有了很大的意义,最新的主要服务提供商Salesforce公司看起来像是已经越过了这个门槛。
Salesforce公司基础设施工程副总裁TJKniveton表示,该公司通过“大规模转型”改变了其基础设施运行方式,从很多专业定制服务器规格到手动配置工作的做法,就像网络规模数据中心运营商像谷歌和Facebook那样大量使用,在公司内部规范裸机服务器,并实施先进的数据中心自动化工具。
Kniveton将在旧金山举行的DCD互联网大会上与来自谷歌和Joyent的基础设施技术专家一起探讨数据中心技术。
在过去10年中,为了适应自己的需要,Kniveton带领的研究小组致力于网络规模数据中心的所有基础设施的创新工作。这将重新定义批发数据中心提供商、硬件和软件供应商(Salesforce使用数据中心提供商产品,而不是自己建造),以及运行在基础设施之上的软件开发商之间的关系。
一个比较大的变化就是将适用于各种应用类型不同的服务器配置过渡到一个单一的服务器规格范。当微软宣布将加入Facebook的开放计算项目时,就提出了开源数据中心和硬件设计的倡议,去年年初,微软公司就开始实施了类似的策略改变,在其基础设施上进行规范的单一的服务器设计,以利用规模经济。
Facebook的做法略有不同,虽然它有具有高度的标准化的服务器,基于工作负载类型,在每个服务器进程使用了几种不同的配置。
Kniveton表示,要进一步促进Salesforce公司单一的规格标准化,他没有提供有关设计细节,但表示,减少到一个配置会有很多的好处。
另一个大的变化是更加依赖于软件,像可靠性和通用服务器管理。像网络规模经营公司Salesforce依赖于软件,使其应用具有弹性,而不是保证每个单独的硬件全天候运行无事。
自动化:应用程序和基础设施之间的粘合剂
数据中心的大部分软件工作促进了自动化进程,所以计算机可以代替系统管理员的手工工作。其目标最终不仅仅是简单的任务自动化,而是为应用程序提供最佳的基础设施,并建立自我管理系统。
Salesforce公司的努力在某种程度上依赖于开源技术,但Kniveton的研究小组发现,他们需要的一切并不都是开源的。他说:“虽然有很多困难,但是这个团队仍然在内部创造出很多技术,我希望未来在某些方面实现开源。”
数据中心自动化是网络规模化方法的关键。谷歌公司企业基础设施首席技术官GengLi表示,自动化是保持数据中心一切设施融合在一起的粘合剂。“这不仅仅是向一个供应商或一些供应商购买技术,”GengLi说。
自动化使一个管理员可以管理数千台服务器,这是在这样的尺度来管理基础设施的唯一途径。而在谷歌数据中心就没有系统管理员,GengLi表示,谷歌数据中心这样的角色称之为可靠性工程师。“那些人都是软件开发人员,”他说,“这样的工程师可以得到服务支持,实现基础设施自动化,以正确支持服务,这是他们的责任。”
自动化也有助于提高基础设施的利用率。它可以使物理设施实现虚拟化或抽象化,并将可以使用的应用程序创建虚拟池资源。例如,服务器集群中所有可用的闪存容量,可以被视为一个单一的闪存资源,并进行分享,而不是个别的应用程序某些服务器上使用一些闪存资源,却留下了大量的闲置容量。
涟漪效应风险
显然,系统越大,系统的自动化程度越高,如果有问题的话,其影响也就越大。在一个高度自动化的系统中,每一件事都是相互关联的,一个单一的软件缺陷可以级联的方式传导,如果没有被软件开发人员发现的话,将会引发广泛的服务中断。
云提供商Joyent公司首席技术官布莱恩•卡特瑞警告说,在整个数据中心基础设施中,自动化程度越高,就会面临着一个微小错误造成灾难性后果的局面。
Kniveton承认确实存在这样的风险,并称自动化方法意味着需要更多的思考,如何避免数据中心实现自动化后小错酿大祸。他表示,“权力越大意味着责任越大。”
Salesforce公司基础设施工程副总裁TJKniveton表示,该公司通过“大规模转型”改变了其基础设施运行方式,从很多专业定制服务器规格到手动配置工作的做法,就像网络规模数据中心运营商像谷歌和Facebook那样大量使用,在公司内部规范裸机服务器,并实施先进的数据中心自动化工具。
Kniveton将在旧金山举行的DCD互联网大会上与来自谷歌和Joyent的基础设施技术专家一起探讨数据中心技术。
在过去10年中,为了适应自己的需要,Kniveton带领的研究小组致力于网络规模数据中心的所有基础设施的创新工作。这将重新定义批发数据中心提供商、硬件和软件供应商(Salesforce使用数据中心提供商产品,而不是自己建造),以及运行在基础设施之上的软件开发商之间的关系。
一个比较大的变化就是将适用于各种应用类型不同的服务器配置过渡到一个单一的服务器规格范。当微软宣布将加入Facebook的开放计算项目时,就提出了开源数据中心和硬件设计的倡议,去年年初,微软公司就开始实施了类似的策略改变,在其基础设施上进行规范的单一的服务器设计,以利用规模经济。
Facebook的做法略有不同,虽然它有具有高度的标准化的服务器,基于工作负载类型,在每个服务器进程使用了几种不同的配置。
Kniveton表示,要进一步促进Salesforce公司单一的规格标准化,他没有提供有关设计细节,但表示,减少到一个配置会有很多的好处。
另一个大的变化是更加依赖于软件,像可靠性和通用服务器管理。像网络规模经营公司Salesforce依赖于软件,使其应用具有弹性,而不是保证每个单独的硬件全天候运行无事。
自动化:应用程序和基础设施之间的粘合剂
数据中心的大部分软件工作促进了自动化进程,所以计算机可以代替系统管理员的手工工作。其目标最终不仅仅是简单的任务自动化,而是为应用程序提供最佳的基础设施,并建立自我管理系统。
Salesforce公司的努力在某种程度上依赖于开源技术,但Kniveton的研究小组发现,他们需要的一切并不都是开源的。他说:“虽然有很多困难,但是这个团队仍然在内部创造出很多技术,我希望未来在某些方面实现开源。”
数据中心自动化是网络规模化方法的关键。谷歌公司企业基础设施首席技术官GengLi表示,自动化是保持数据中心一切设施融合在一起的粘合剂。“这不仅仅是向一个供应商或一些供应商购买技术,”GengLi说。
自动化使一个管理员可以管理数千台服务器,这是在这样的尺度来管理基础设施的唯一途径。而在谷歌数据中心就没有系统管理员,GengLi表示,谷歌数据中心这样的角色称之为可靠性工程师。“那些人都是软件开发人员,”他说,“这样的工程师可以得到服务支持,实现基础设施自动化,以正确支持服务,这是他们的责任。”
自动化也有助于提高基础设施的利用率。它可以使物理设施实现虚拟化或抽象化,并将可以使用的应用程序创建虚拟池资源。例如,服务器集群中所有可用的闪存容量,可以被视为一个单一的闪存资源,并进行分享,而不是个别的应用程序某些服务器上使用一些闪存资源,却留下了大量的闲置容量。
涟漪效应风险
显然,系统越大,系统的自动化程度越高,如果有问题的话,其影响也就越大。在一个高度自动化的系统中,每一件事都是相互关联的,一个单一的软件缺陷可以级联的方式传导,如果没有被软件开发人员发现的话,将会引发广泛的服务中断。
云提供商Joyent公司首席技术官布莱恩•卡特瑞警告说,在整个数据中心基础设施中,自动化程度越高,就会面临着一个微小错误造成灾难性后果的局面。
Kniveton承认确实存在这样的风险,并称自动化方法意味着需要更多的思考,如何避免数据中心实现自动化后小错酿大祸。他表示,“权力越大意味着责任越大。”