身临其境了解跨国公司顶级数据中心
2015-07-24 51CTO 编辑:单瑜
如果追根溯源的话,21世纪的数据中心扎根于上世纪六七十年代放置大型机的计算机房。这些大型数据中心牢固又结实,用来放置复杂又昂贵的IT基础设施,而这些基础设施需要复杂的电源和冷却系统。现代数据中心起源于上世纪90年代,当时许多公司内部安装了一排排服务器(常常取代之前计算机房里面的大型机)。随后出现了异地托管数据中心,多家公司将自己的服务器放置在各个地方:比如专用房间、可以上锁的柜子或机架。最后,我们有了现在的专用数据中心大楼,处理、存储和连接系统一应俱全,通常提供某种组合的主机托管、管理主机和(公有云、私有云及/或混合云)云服务。
其中一些数据中心是真正的庞然大物。世界上就可用电源和冷却系统能力而言规模最大的数据中心是斯维奇通讯集团(Switch Communications Group)建在拉斯维加斯的SuperNap-7,这个主机托管设施占地面积多达407000平方英尺(37811平方米,即3.78公顷)。由于云计算推动市场需要高密度主机托管,于是斯维奇宣布计划将数据中心场地扩大到220万平方英尺(204387平方米,即20.4公顷),从2013年5月开张的SuperNAP-8入手,随后在2014年破土兴建SuperNAP-9。
斯维奇在拉斯维加斯的SuperNAP设施大楼计划扩大面积,数据中心场地总面积将达到220万平方英尺(204387平方米)。图片来源:斯维奇通讯集团
今日,“数据中心用户”既包括亚马逊和谷歌之类的大型IT基础设和服务提供商,又包括连接到互联网的任何企业用户或消费者。然而,出于本文的需要,典型用户是建有内部数据中心的企业里面的IT管理员――其数据中心同时运行传统企业应用软件和已经在使用一些云服务(最可能是SaaS应用程序)的虚拟化工作负载,该用户正在考虑下一步:是扩增内部容量,将更多的工作负载移到公有云,还是采用混合策略?
由于“云”(即外包和外部的)基础设施、服务和应用程序日益得到使用,数据中心的使用目前正在经历一场巨变。据思科公司声称,到2016年,所有数据中心流量中近三分之二(64%)将在云数据中心,而不是在“传统”(即内部)数据中心加以处理。相比之下,在2011年,61%的流量在传统数据中心加以处理,只有39%在云数据中心处理。
数据中心的设计和构建
典型的数据中心是一幢工业大楼,它为放置IT设备以及所有必要的配电、冷却、布线、消防和物理安全系统提供了所需的场地。数据中心通常建在电力和土地成本较低的地区,但又有足够的人力以便为数据中心配备人手(除非是所谓的“无人值守”数据中心,这类数据中心实现远程管理,几乎不需要现场工作人员。)
根据工作负载,Uptime Institute这家数据中心行业联盟按照四级层次体系对数据中心进行分类,并由电信行业协会(TIA)对数据中心进行认证(TIA-942标准)。该标准为每个层次规定了达到既定可用性级别所需要的架构、安全、机制和电信要求:第一层次是99.671%(每年停运时间不超过28.8小时);第二层次是99.741%(每年停运时间不超过22小时);第三层次是99.982%(每年停运时间不超过1.6小时);第四层次是99.995%(每年停运时间不超过0.4小时)。
与数据中心有关的另一个被广泛引用的数字是PUE,即电力使用效率。PUE由绿色网格联盟(Green Grid)首创,它是指数据中心使用的总电力与IT设备使用的电力之比。理想的PUE比是1.0,实际值从2.5以上到1.1左右不等(见下图)。考虑到其数据中心运营的规模之大,谷歌在电力使用效率方面居于领先不足为奇:这家搜索巨擘声称其所有数据中心的“综合”PUE早在2012年第四季度就达到了1.12(之所以称为“综合”,是由于谷歌计入所有电力开销来源,而且一年到头进行测量)。表达PUE的另一个方式就是使用其倒数,即所谓的数据中心基础设施效率(DCiE)。谷歌在这个度量指标方面的得分是0.893,即89.3%。
为了解数据中心领域的情况,Uptime Institute在2011年就启动了一年一度的调查。其在2012年3月份/4月份开展的《2012年数据中心行业调查》对来自北美(50%)、欧洲(23%)、亚洲(14%)和中美/南美(7%)的1100名数据中心管理员、IT管理员和高层主管进行了调查。
调查的重要发现结果包括:30%的调查对象预计数据中心容量在2012年就用完;大多数计划通过合并服务器和升级数据中心基础设施,让现有的数据中心继续正常运行。与2011年的调查相比,2012年计划新建数据中心的调查对象要少10%,计划将更多的工作负载转移到云端的却多10%。
这项调查发现,促使人们采用云服务的主要驱动因素包括降低成本(27%)、可扩展性(23%)、客户/用户需求(13%)以及部署速度(13%)。阻碍人们采用云服务的主要因素有安全顾虑(64%)、合规/监管问题(27%)、成本(24%)以及企业内部缺少云计算管理专长(20%)。
Uptime Institute还发现,企业组织在2012年对PUE的测量比2011年来得更精确,普遍反映PUE有所下降,处于1.8-1.89这个范围。节电策略主要包括:热通道/冷通道遏制和活动地板进气温度(在IT设备风扇电力和冷却能源之间找到理想的折中点)。
Uptime Institute的《2012年数据中心行业调查》声称,来自其1100名调查对象的PUE(电力使用效率)数值差异很大。只有6%的调查对象声称PUE低于1.3。图片来源:Uptime Institute
该调查指出的其他趋势包括:大家对预制模块化数据中心或部件的兴趣加大(9%已部署,8%计划部署,41%考虑部署);开始部署数据中心基础设施管理(DCIM)工具(下文对这些趋势会有详细介绍)。
有多少数据?
有多少数据流经全球的大小数据中心,这方面趋势又如何?自2011年以来思科的年度全球云指数(GCI)就解答了这个问题。在2012年报告中,思科使用来自10大企业和互联网数据中心的网络数据,预测:到2016年,全球数据中心流量每月将达到554艾字节(EB)。顺便说一下,1艾字节= 1000拍字节(PB)= 1000000太字节(TB)。以年度计,这从2011年的1.8泽字节(ZB)猛增到6.6ZB,年复合增长率达到31%:
预计到2016年数据中心流量增长情况(1泽字节= 1000艾字节)。图片和数据来源:思科全球云指数
所有这些数据来自哪里?思科将数据中心流量(包括企业和消费者)分为三大类:仍在数据中心里面的流量,在数据中心之间传输的流量,以及通过互联网或IP广域网从数据中心传输到用户的流量。据思科声称,大部分流量(76%)是仍在数据中心里面的这种流量。
只有17%的数据中心流量估计从数据中心传输到用户。图片和数据来源:思科全球云指数
如果考虑到服务器的工作负载,向云迁移的势头一目了然,思科估计2016年安装的工作负载会有1.806亿个,部署在云数据中心和传统数据中心的分别是62%和38%;相比之下,在2011年的7110万个工作负载中,部署在云数据中心和传统数据中心的分别是30%和70%。
预计到2016年服务器工作负载的位置(服务器工作负载的定义是服务器为运行应用程序和支持众多用户所处理的任务)。图片和数据来源:思科全球云指数。
云数据中心中每台物理服务器的工作负载平均数量预计会从2011年的4.2个增加到2016年的8.5个;至于传统数据中心中使用效率较低的服务器,2011年和2016年估计和预测的数字分别是1.5个和2个。
思科还预测基于云的工作负载的区域分布会出现“权力交接”:2011年,北美遥遥领先,在2140万个工作负载中占37.8%,亚太地区占31.3%;到2016年,亚太地区预计会在1.121亿个工作负载中占36.2%,而北美退居次席,占26.4%。
有一点很清楚,在可预测的未来,企业组织会混合使用内部IT基础设施和外包IT基础设施;而一大根本性趋势就是,位于公有云数据中心的服务的使用量会增加,在亚太地区更是如此。
重新考虑数据中心
那么如何设计出更高效、更具扩展性、更灵活和更安全的数据中心呢?具体来说,IT服务提供商如何才能降低构建成本,获得更接近1.0的PUE,提高每瓦特计算能力,为用户缩短延迟以及减少碳排放量;首先是,它们如何更有效地管理这些复杂系统?下面是影响21世纪的数据中心(又叫数据中心2.0)的几个趋势——
1.微服务器
就某些种类的大批量、低计算能力工作负载(比如网页服务、搜索引擎查询执行或并行数据处理任务),微服务器这一类新的服务器可能占用比基于至强或皓龙的传统企业服务器更少的数据中心场地、耗用更少的电力。
惠普是新兴微服务器领域的领导厂商之一,它早已启动了Project Moonshot。第一台Moonshot服务器早在2011年11月份宣布,这是基于ARM的片上系统(SoC)平台,名为Redstone。惠普将它作为一个演示系统安装在其发现实验室(Discovery Lab)。据惠普声称,Redstone开发服务器平台基于现有的ProLiant SL6500机箱,其服务器托盘可以同时容纳计算盒和存储盒,提供了四倍于传统ProLiant服务器的密度(每个托盘最多可容纳72个计算节点,即每个4U机箱容纳288个计算节点),同时耗电量却只有十分之一。
惠普的首批Gemini服务器是该公司的Project Moonshot的一部分,它们基于英特尔的低功耗凌动S1200(Centerton)处理器。图片来源:惠普
2012年6月份,惠普改变方向,宣布首批量产的Moonshot微服务器(代号为Gemini)将使用基于英特尔“Centerton”凌动处理器的计算盒,具体是标称TDP(热设计功率)为6.1瓦至8.5瓦的凌动S1200系列。Gemini服务器早在2013年第二季度发布。不过,ARM在Moonshot的蓝图中绝对占有重要地位:惠普的Pathfinder合作伙伴计划旨在帮助厂商们针对Moonshot平台从事开发,最新成员是德州仪器公司及其基于ARM的(Cortex-A15 MPCore)Keystone II SoC。不过,至于基于Keystone II的计算盒会不会出现在未来的一代Gemini服务器中,那还是个未知数。
当然其他厂商也参与其中,尤其是戴尔及其基于ARM的Copper服务器。而早些年AMD收购微服务器厂商SeaMicro,以夯实其数据中心服务器解决方案业务。SeaMicro支持凌动的SM15000服务器早已获得了Cloudera的CDH4认证,这是广泛部署的用于大数据分析应用的Apache Hadoop发行版。
虽然微服务器是值得关注的动向,但它们并不适用于所有种类的工作负载,不太可能很快就会在数据中心领域掀起一场革命。比如说,调研公司IHS iSuppli预测,到2016年年底,微服务器的出货量将只有120万台――仅占整个服务器市场的10%。
2.固态存储
快速低功耗防震抗摔的固态存储设备在客户端设备中很常见,比如智能手机中的闪存以及平板电脑和超极本中的固态硬盘。固态硬盘阵列也日益进入到数据中心,它们的性能和电源效率特别吸引人。然而与微服务器一样,固态存储并非普遍适用于这种环境。
阻碍企业大规模采用固态硬盘的主要因素是价格;虽然价格在下跌,但仍比基于硬盘的传统解决方案高出一大截。固态硬盘的另一个潜在问题是“写入耐久性”有限――超过P/E(编程/擦写)周期的最大数量后,非易失性NAND闪存块就会出现故障。英特尔借助其HET(高耐久技术)解决了这个问题,这项技术结合了硬件和固件方面的改进,以加强企业级固态硬盘的耐久性。HET包括“后台数据刷新”,这在非活动期间转移数据,以避免读取活动频繁的区域。
固态硬盘阵列对数据库请求的响应速度比基于硬盘的阵列(左边)快得多;而且,固态硬盘的工作温度也要低得多(右边)。图片来源:英特尔
在英特尔的测试中(见上图),首先在对照环境中,然后在生产数据中心(运行安全合规数据库)中,相比同类的基于硬盘的企业级(1.5万转速)存储系统,固态硬盘阵列具有下列优点:处理随机性磁盘输入/输出任务时,性能最多提升5倍;缩短了读取/写入延迟(最多分别缩短了10倍/7倍),缩短了最大延迟(最多缩短8倍);更快地从闲置状态切换至活动状态;磁盘容量占满时,寻道时间并不延长;耗电量减少50%,另外散热量减少三分之一。英特尔还表示,由于下列优点,固态硬盘解决方案较高(高出3倍)的初始成本值得投入:缩短了IT人员处理棘手的输入/输出队列深度的时间;记录监控数据方面没有积压(消除了潜在的合规问题);减少了打补丁系统的延迟;为处理3年至5年的工作负载提供了性能和容量保障;比传统SAN或NAS解决方案更简单的安装。
企业级固态硬盘存储不仅仅适用于基于SATA的阵列(比如EMC新的XtremeIO产品),还适用于许多厂商的PCI卡,包括Fusion-io和LSI。X-IO采用了一种非传统方法,这家公司专门制造将固态硬盘和普通硬盘组合在单一存储池的混合存储系统;只有在有望大幅提升性能的情况下,其固件(Continuous Adaptive Data Placement)才将数据放在固态硬盘上。据RTW Hosting公司首席执行官Mike Wills声称,将传统SAN换成X-IO等厂商的混合阵列可以提供高出15倍至20倍的性能,另外还能将电源效率提高60%。虽然需要在兼顾读取/写入性能和存储容量方面加以优化,但是分层混合方案也许是出路所在。
3.软件定义数据中心
服务器虚拟化和存储虚拟化是两个成熟的概念,但是为了获得最大的数据中心效率和灵活性,IT系统的第三大部分:网络大概需要经历一种类似控制层从物理硬件分离的蜕变。软件定义网络(SDN)是个新领域,而各大网络厂商仍在拿出各自的应对方案:EMC旗下的VMware早在2012年7月收购SDN专业公司Nicira就是这方面的一大举措。
SDN的标准制定和推广机构是开放网络基金会(ONF),其主要手段就是OpenFlow协议。2012年4月份,ONF的创始成员谷歌透露了OpenFlow大规模实施在其数据中心骨干网络上的细节,该网络承载这家搜索巨擘的内部流量(谷歌的另一个面向互联网的骨干网络承载用户流量)。
谷歌在其内部骨干网络上实施的OpenFlow使用了这家搜索巨擘自己制造的网络交换设备。图片来源:谷歌
谷歌在部署SDN后得到的好处包括:部署时间更短,能够用软件来模拟骨干网络用于测试,易于升级,大幅提高网络的利用率(接近100%,而业界平均利用率只有30%至40%),以及稳定性普遍很高。响应其在服务器方面的策略,谷歌为这个项目建造了自己的网络交换机――如果谷歌网络交换机广泛采用的话,这会让传统数据中心网络设备的厂商们(尤其是思科)惴惴不安。
4.模块化数据中心
专门定制的传统“实体”数据中心建造起来成本高、时间长(容量达到极限后,扩展起来也是如此)。预制模块化数据中心常常装入到标准的货运集装箱(里面含有服务器、网络和冷却设备),让公司企业可以迅速添加目前所需的容量;需要增加后,又能够迅速、经济高效地部署更多模块。
之前提到的Uptime Institute调查特别指出,调查对象对预制模块化数据中心有着浓厚的兴趣。不过,这个趋势显然处于初期阶段:52%的调查对象表示,他们仍在考虑将来扩展数据数据时采用传统的构建方法,19%在考虑几乎不使用传统构建方法的预制部件;与此同时,21%的调查对象表示,完全集装箱式的数据中心是一个值得关注的选择。
只有11%的调查对象声称自己对模块化数据中心市场的成熟程度“极有信心”,不过71%同意:“满足连续几代IT设备的不断变化的需求”比“数据中心基础设施很长的使用寿命”来得更重要。
据惠普声称,其模块化的POD 240a数据中心可放置最多42个机架的行业标准设备,其前期成本是同类传统数据中心的四分之一,只要12周就能部署完毕。
对于有兴趣的那些人来说,市场上有好多厂商在竞相提供模块化数据中心,包括AST、思科、Colt、戴尔、惠普、IBM、IO和东芝等其他厂商。
5.绿色数据中心
传统数据中心耗用大量的电力及其他资源(比如冷却水)。由于数据中心容量势必会越来越大,企业和服务提供商面临的压力是,做好环保工作,减少其数据中心的资源占用量。
受绿色网格启发的PUE度量指标现已得到广泛使用和引用,致力于提高电源效率,最先进的数据中心现在其PUE在1.1左右――也就是说,DCiE(数据中心基础设施效率)为90.9%。
之前提到了几个趋势,比如从传统内部数据中心(服务器利用率低)向现代云数据中心(服务器利用率高)转型,低功耗微服务器和固态(或混合)存储系统的使用日益广泛,以及惠普的POD 240a(被称为“EcoPOD”)等节电型模块化数据中心,这些都将有助于打造更节电的数据中心。另一项计划是Facebook发起的开放计算项目(Open Compute Project),将推广简化的开源服务器及其他IT基础设施设计,可能也有助于到时候提高数据中心的电源效率,不过就这项计划而言,现在仍是早期阶段。
Verne Global在爱尔兰的模块化数据中心使用100%的绿色电力,使用室外空气而不是制冷设备来冷却IT设备。图片来源:ZDNet
说到获得环保认证,数据中心的位置是需要考虑的一个关键要素。比如说,ZDNet在早些年就访问了建在爱尔兰的一个模块化数据中心,运营方Verne Global为其获得了长期、低成本、100%环保(可再生的水力/地热发电)的电力供应。爱尔兰的气候也适合使用自然冷却――使用室外空气来冷却IT设备,而不是安装耗电的制冷设备。
一些数据中心的冷却方案很奇特。比如说,英特尔尝试将服务器浸在矿物油桶当中。该信息图总结了英特尔的其他较常规的设计理念:
6.数据中心基础设施管理(DCIM)
为了高效地运行IT系统,并且针对未来的数据中心容量做出明智的决策,你就需要关于贵公司中一系列应用程序工作负载的当前数据和预测数据,它们的容量需求,以及在内部运行、在公有云运行或作为混合解决方案而运行的比较成本。要不然,你可能面临这种风险:不是配置过度、浪费资金,就是配置不足,遇到性能瓶颈和停运事件。这两种情况都是不合需要的;对IT管理员来说,都会带来危及饭碗的后果。
可以帮助你收集并解读这些数据的工具归数据中心基础设施管理(DCIM)这个大类。这是个新兴却迅速发展的行业,这个行业有形形色色的解决方案,有的致力于管理数据中心的物理基础设施(IT硬件、电力和冷却系统等),有些较为专业的解决方案不仅提供物理、虚拟和云基础设施的概要信息,还提供预测分析功能和“假设分析”场景规划。这后一类解决方案有时被称为DCPM(数据中心预测建模)。
弗雷斯特调研公司的2012年DCIM解决方案市场概况列出了八大核心功能:清查及发现、维护及变更控制、数据收集、综合监控及显示仪表板、警报、控制、趋势分析,以及能够设计切实部署的未来解决方案。弗雷斯特公司列出的新兴功能包括如下:基于实际使用而非额定使用的电力规划及容量;可识别使用量的建模;网络容量建模以及DCIM与常规IT管理工具整合。
弗雷斯特公司列出了三类DCIM厂商:数据中心设施和基础设施厂商(比如艾默生);IT管理厂商(比如冠群科技)以及系统硬件厂商(比如惠普)。
Sentilla的数据中心性能管理软件提供了基本的DCIM功能,另外还提供了预测分析功能和“假设分析”场景规划。这个例子表明了各种服务器升级策略的比较成本。图片来源:Sentilla
7.云平台和开放标准
对大多数公司来说,通向云计算的道路始于内部数据中心,该数据中心通常同时运行传统的孤立企业应用软件和虚拟化的“私有云”工作负载。后者常常基于VMware的专有vCloud技术。
说到利用公有云服务,无论是混合云架构中的“云突发”(管理负载激增)还是作为一种全新部署的服务,厂商锁定问题就会冒出来。谁也不想把IT基础设施的大部分交给一家厂商的云平台,要是需要迁移到另一家厂商的云,结果却发现迁移不了。这是开源云平台背后的原动力。
最有名的例子是OpenStack,这个基于Linux的开源软件架构背后有一个大力推广和治理的OpenStack基金会竭力支持。OpenStack于2010年由主机托管提供商Rackspace和美国宇航局联手发起,现在得到了业界的广泛支持,包括思科、戴尔、惠普和IBM等行业巨头。
其他知名的开源云平台包括:Apache CloudStack(最初由思杰开发,思杰实现的平台是CloudPlatform)、Eucalyptus、OpenNebula和DTMF的OVF 2.0。
OpenStack尤其备受关注,定位于作为VMware的主要对手(VMware通过其服务提供商合作伙伴来运行公有云和混合云)。尽管时常上演“云大战”,但值得一提的是,最大的公有云平台:亚马逊网络服务、谷歌计算引擎和微软Windows Azure本质上都具有很强的专有性。
一套开放、完全兼容的云软件平台和API有望消除阻碍云技术得到更广泛采用的障碍,让更多的公司可以获得相关的好处:随需应变的自助服务、可以迅速扩展以及透明的价格。
结束语
数据中心是复杂而昂贵的设施,高效运行数据中心需要IT基础设施管理、能源管理和建筑物管理方面的多项技能。难怪如我们所见,许多公司在日益将这些任务外包出去。
无论你是维护传统的内部数据中心,将IT系统外包给公有云,还是采用一项混合策略,这取决于相关工作负载的组合。如果你将现有的内部工作负载迁移到云端,或者期望应对负载激增,混合云解决方案可能很适合。另一方面,如果你在部署一种全新的工作负载,一开始就完全采用云可能更合适。不过,如果你对将敏感或关键任务的业务流程和数据交给云环境不放心(比如出于合规或可靠性方面的原因),也许应该将它们放在自己的内部数据中心,牢牢控制起来。
无论是内部型还是外包型,21世纪的数据中心都将通过结合贯穿整个IT架构(服务器、存储和网络)的虚拟化和合并,增加低功耗硬件(比如微服务器和固态存储硬盘)的使用,模块化数据中心构建、绿色电源和冷却技术,以及编排数据中心管理、为未来容量扩展场景建模的DCIM软件,提高其效率和灵活性。
如果你使用任何一种外包,都要切记:云不是一直始终顺畅运行的某种神奇环境。少不了必要的调查:核查服务提供商的服务级别协议(SLA),查明你的数据将驻留在何处,转移数据有多容易,查明提供商提供什么样的安全和备份条款,另外始终要留意任何潜在的成本。