阿里、万国、XDC+ 数据中心建设经验分享机房建设
2016年12月20-22日,第十一届中国IDC产业年度大典隆重召开,阿里巴巴、万国数据、XDC+(江苏恒云太)分别就数据中心建设实践经验进行分享,下面就一起来看看他们是如何造就高逼格数据中心的:
阿里巴巴
阿里巴巴集团技术保障IDC高级专家 刘水旺
如今,互联网数据中心的主要特点包括规模大、变化快、高带宽、高功率、高成本、高可靠性,那么根据这些特点又该如何来建设数据中心呢?
一、数据中心规模大:
近年来,随着互联网的快速发展,尤其是移动互联网的兴起,推动了互联网数据中心规模和数量都在增加,加之互联网集中度高,"二八"效应非常明显,更促进了数据中心规模大这一特点。那么大规模数据中心该如何选择、设计及运营呢?
.数据中心选址:
单个点占用资源越来越多,选址越来越难选,符合条件的非常少;怎么办?现在国内,北京已经在关注能耗,数据中心PUE要求1.5以下才能批准。在国内其他城市,更多的是靠自律。我们认为数据中心选址应尽可能少的占用资源,这是非常重要,如果我们不减少资源的占用,对于以后可持续发展是非常不利的。
.数据中心设计:
数据中心架构设计合理非常关键,方案设计精细化也很重要,任何不恰当的设计都会导致巨大代价。例如阿里张北数据中心,采用新风和冷冻水系统,在张北这个地方其实是比较合适的,因为当地水资源比较紧张。
.数据中心运营:
数据中心规模大之后,这么大的增量和存量靠人肉肯定不行,自动化、大数据运营、人工智能等等都很必要。
二、数据中心变化快:
现在这个时代,互联网时代一个产品或业务的"存亡"和"爆发"都会在非常短的时间内发生,用传统的响应方式已经不能适应互联网的需要。
.IDC快速新建,快速扩容,按需建设非常重要;
.做到单元化、标准化和个性化、按需定制化会并存;
.按照周期分解建设内容,实现建设速度、建设成本和匹配需求的最佳结合;
.对于规模应用,整机架是非常好的选择;
三、数据中心高可靠:
互联网已经涉及到民生,对于可靠性的要求不断提高,互联网数据中心的地位应当足够重视。比如支付宝"5.27"、AWS的雷击、微信的断网等等影响都非常巨大。从技术来看,主要有三方面要求:供电、制冷、网络。
.供电系统:分布式供电减少影响面;加强柴发配置,减少外部依赖;
.制冷系统:采用不间断制冷技术及高可靠性的自控系统;
.网络系统:网络包括内部和外部,内部双上联/多上联;外部连接多路由;
四、数据中心高功率:
看过很多数据中心,大规模的建设都是16A、20A,这种更多考虑可能是建设的时候,利润率更高一点,或者是针对中小用户。真正从用户端来看,从互联网大规模来看,性价比一定是非常低的,我们现在选择高功率密度的机器一定是更划算的。
五、数据中心高带宽:
在云计算和大数据的推动下,网络发展速度非常快,东西流量翻倍,南北流量持续增加,短时间实现了百兆,千兆,10G,25G的跨越;用户需求和流量推动网络架构不断演进,未来会怎么样?
国外互联网巨头纷纷开启自建传输和光缆,很可能成为未来趋势,他们已经建海底光缆了,像谷歌和亚马逊,包括澳洲、欧洲和亚洲之间的互联。
六、数据中心高成本:
狭义的数据中心,建设成本一般2~4万元/KW-IT,广义的数据中心全寿命周期成本是其10倍以上,那么该如何降低成本:
.最有效的方式是利用率提升(比如云计算、离线在线混部、 服务器负荷率、 机柜负荷率);
.硬件性能提升,降低数据中心PUE,技术优化降低冗余等等也是重要方法之一;
.只盯着PUE一个指标往往走向误区,比如单纯的提升温度或降低数据中心冗余,这种绝对是得不偿失的。
数据中心其实就是互联网,快速变化的互联网撞上了科技密集的IT业与传统的机电行业,我们做的很多东西不一定是对的。我们在不断地摸索,经常做很多决策,不一定让大家都能够理解得了,但是我们仍然会在不断的纠结中,找到平衡点。沿用阿里的话"梦想还是要有的".
万国数据
万国数据高级副总裁 陈怡琳
会上,万国数据高级副总裁陈怡琳重点解读了高性能数据中心。因为客户的需求,因为需求的增长,因为需求的差异性,因为政府的一些指导的原则,也因为竞争的环境,也就出现了谈到的高性能数据中心,谈到高性能数据中心该如何建设?
一、高性能数据中心有五个特点:
.高等级:高等级有一个特色,今天客户在每一个数据中心里寻找扩展,不仅在当地,还在一个城市里寻找2到3个点的扩展,除此以外在不同城市之间寻找扩展。这就形成了数据中心集群的要求。对于高等级的要求也是有一些规格认证的要求。比如说有ISO的要求、TRA的要求、UPtime的要求,都形成一系列的高等级的定义。
.高密度:目前为止8000瓦变成很常见的规模,未来10到12千瓦也是很常见的需求。这对数据中心的运营和能耗都带来了一定的改变,由此在进行定制化和模块化。
.高能效:阿里千岛湖的数据中心年平均的密度是1.3,也是为行业树立了标杆,我们也有很多的技术手段、运营手段来实现。对于数据中心在暖通方面就提出了挑战。更宏观的是数据中心的选址,包括对国家电力的政策都有很大的依赖性。
.模块化与定制化:今天运行的数据中心规格在变化,除了从单机柜到楼宇的交付不一样,有很多产品规格的要求,比如一路高压直流、微模块,对制冷和电力提出了一系列设计的要求。
二、数据中心全生命周期的覆盖和改革:
.数据中心选址:选址非常重要也非常复杂,50%的数据中心在一线城市,为什么?是因为这里有很多客户的应用,比如滴滴打车2秒钟就要给出反馈,你的反应必须要非常快。这就影响到客户使用的体验和网络的部署。今天中国电力的稳定性和人才的问题导致你不得不选择在一线城市。
.数据中心设计:更多的谈一谈可靠性和性价比的平衡。数据中心有一个造价的理念,我们的每一个造价师要尽量的把成本用足,但还要平衡可靠性的因素,平衡将来发展的因素,平衡将来技术革新的因素。
.数据中心建设:一个改造的数据中心5、6个月可以完成,从土建开始12个月左右。跑工地你会发现中国基建的环境差异性非常大,所以建设第一点谈的就是质量控制 ,这是跟整个行业的素质有关的。二是变更管理。造的过程中需求会不断的变化,设备已经买好了但是需求发生了变化,怎么平衡好。三是成本的管控。
.数据中心测试验收:涉及到设备的场验,现场的场验,涉及到设备安装以后单机的调试,也涉及到所有系统安装好以后联机的调试。这些环节可以帮助我们把控好质量的环节,确保数据中心投放的时候是一个安全有保障的数据中心。
.数据中心运维:运维平台涉及到内部的管理,涉及到给客户提供的服务。无论是从流程还是技术方面以及人员方面都在非常紧密的耦合,在不断的优化调整,形成了我们非常强的核心竞争力。
数据中心并不是冷冰冰的,最后是以服务的形式提供给客户和合作伙伴。
XDC+(江苏恒云太)
XDC+江苏恒云太信息科技有限公司副总经理 曹晓华
从建设的阶段去做一个高可靠的数据中心。数据中心的可靠性,从我们的理解来说分几块:物理可靠性;电力可靠性;暖通可靠性;控制可靠性。
一、物理可靠性:
.通过将数据中心的物流、人流进行分离,通过分离人与物进入数据中心路径,保证了整体的运营安全;
.在物理结构上,实施全路径物理隔离,从电缆到管道保证无交错点,并用混凝土墙进行隔离;
.在数据中心建设上做到了全方位防入侵,从交通流的组织上面做到全面的防入侵,在将整个楼的外部墙体结构加固为防爆墙;
.通过对外来人员进行全路径监控,并通过自主研发的分析系统进行解析,分析数据中心是否存在危险,在通过其与报警系统联动,将分析结果通知数据中心运营人员。
二、电力可靠性:
.市电接入,数据中心的电力主体为10KV母线,并为其设置了两个母联开关,将其分为红色跟蓝色,放置于不同的房间内,保证单独电力维护不会影响到整体数据中心的电力设施,保障了整体的安全可靠性。
.柴油发电机,在数据中心柴发方面,采用N+1或者N+2的形式,通过两段母线进行引入,保障数据中心电力的高可靠性;
.UPS,在数据中心电力运维方面,整个数据中心采用统一的UPS,以保障任何一台UPS出现故障,都会有备件的UPS来支撑数据中心业务连续性,并为每组数据中心机房模块配备独立的2NUPS,以保障电力设施的可靠性;在整个系统架构来说,通过使用传统的2NUPS代替高压直流技术,并用两组独立的2N UPS代载冷通道。
三、暖通可靠性:
.受墙体结构和楼房内部建筑的影响,局部热点是数据中心建设的重要问题,为了保障数据中心暖气流通性,将数据中心空间设置为无柱结构,并将顶板降低一米,保障物流和人流通道气流顺畅平稳;
.在末端采用2N结构空调;
.在管路上设计为单侧环网模式;
.在数据中心制冷设计方面,采用四冷冻站结构,实现各模块数据中心之间冷冻站的共用,提高了制冷系统的运行效率;
.数据中心冷冻站管理方面采用DCS控制系统,冷机的控制跟冷泵的控制采用了独立控制系统,将四个冷冻站进行环状连接,单体的冷冻站可为任意末端供水,提高了数据中心制冷系统的运行效率;
.采用数据中心独特的补水系统,通过过滤使水质达到饮用级标准;
.在排水系统方面,为管道做全路径漏水检测,并将其记录在XDC控制系统,与报警系统互联,及时发现问题,为机房模块设置了多环路冗余排水系统。
四、控制可靠性:
.控制系统分为采集系统和高频率的采集,传统的采集系统将所有的数据上传至PLC,统一存储、查找与管理,高频率的采集是将重要数据着重采集,并将数据独立存储,数据不再存储在原来工业的数据库里,而是存在MYsql的数据系统里;
.在配电侧采用全冗余的控制器,并拥有国家认证的IC61850标准,二次泵上采用独立的冗余器,并为数据中心做了独立的分析系统,从整体的配电系统上的仪表、脱口到暖通设备的传感器,统一对数据中心进行了全系统的波形捕捉,所有仪表支持每波63次采集的频率,收集的数据统一存储近HadOOP里,加强了配电系统数据的安全性;
.决策系统基于在整个配电系统之上的,决策系统会基于多个数据中心的数据分析进行决策,将所有数据中心控制系统统一管路,实现了全远程的控制;
.其次将数据中心所有的系统做到了标准化,每个数据中心软件是恒定的,每当总控制系统进行软件升级的时候,对它控制逻辑进行升级的时候,会同步升级到每一个数据中心的控制系统,来保障整体系统的软件版本始终是统一的。
五、网络可靠性:
.在每个数据中心都去架设波分设备,而且做到了80×100G波分的技术,以完成数据中心建设免费的互联;
.另外通过一些高性能的路由设备,实现全网带宽超过1.5TB的能力。通过国内运营商,以及国际运营商,建立超过20个TB带宽,来保障整体的电路可靠性。
以上整理,部分演讲内容有删减!