现实困境:钱 权 房 一个也不能少
对于高校高性能计算中心来说,钱、权、房一样也不能少,缺了钱HPC系统建不起来、计算量达不到规模;少了权,高性能计算中心到底建在计算机学院还是网络中心,抑或是各个学院搞自筹自建就没办法定论;少了房,即使有钱有权,买来的HPC没地方放也不成。
在高校中,相对最好解决的是房的问题,近几年高校教师的住房问题基本上已经社会化解决,学校的单身宿舍和三产的发展也部分解决了以前的住房矛盾,如今在高校中,房的问题主要是集中在建设数据中心的机房建设上——地板、散热、供电、消防——这些问题在很多时间久远的学校都是“困难”,如果考虑到防震、承重、隔音等问题,高校机房的合格率恐怕仅仅会是个个位数。
魏晓辉从学校这次拿到了200万元的基础设施建设的费用,机房装修、专用设备、消防设施和基础建设基本上是足够了,在一定程度上,1100万元的平台建设费用,也足够他建立计算节点、存储平台、高速网络和购买管理软件,但钱的矛盾仍然很突出,主要就是运维费用——高校的人员费用其实偏低——最头疼的就是电费。
正是因为如此,魏晓辉才会有“幸好学校还没收我们电费”这样的半玩笑半感叹——以IBM的x3650 M2为例,其单电源搭载双路四核至强5500处理器之后,电源能耗平均在650-700瓦(标配单电源675瓦),虽然至强5500拥有极好的idle(空闲)低能耗设计,但是考虑到HPC负载的普遍较高,一年下来一台服务器的电费就要3000元左右,更何况一个超算中心动辄几百上千台的服务器,以及大量的四路服务器,再算上部分采用胖节点技术设计的高性能计算单元——一年的电费有个几十万显然是家常便饭。
不过,在钱和房之外,权的问题也不能忽视——网络中心、校园网络自然有网络中心的人去管,但HPC谁管?又有谁能做或是该去做超算中心这件事情,却是很多学校悬而未决的事情——在很多学校,计算机系并非HPC中心的牵头者,而是各院系各自为政。
在记者就此问题征求魏晓辉的意见时,他认为计算机学院做HPC的好处要大于麻烦和劣处,“一方面中心建设是第一步,更重要的以后怎样发挥效率和功能,需要计算机方面不是简单的设备维护人员,需要懂高性能计算的人员,计算机学院有这方面的人才和科研的基础。”不过,这并不是说HPC一定要由计算机系来做,作为在HPC领域很前沿的学校,南京大学就是依托天文学院来做的。
但搞计算机的人做HPC还是有天然的优势的。相比各个专业学院,计算机学科对HPC的建设、运营以及算法优化、应用程序优化都更为熟悉,后期维护和各个院系对计算量的使用,也并非网络中心能够解决的——建设曙光5000A的时候,曙光的工作人员和中科院的工作人员奋力了几个月才做完了调优,而著名的TOP1,Roadrunner,在地下停车场待的时间可能要比在数据中心中待的都要长。
“这样一个设备拿到计算机学院来说还有一个好处,对计算机学科发展是有好处的,可以推动学科向前发展。既向学校提供的服务,同时对这个学科本身也是有好处。”其实,无论是谁牵头做,有了熟悉HPC、了解应用的人去做,HPC才能够做好——显然在这方面计算机系的人才是最熟悉和了解HPC的,而另一方面,供应商的工作也要做足才行。
不过魏晓辉也透露,在吉林大学有一个类似“校方高性能计算用户委员会”的组织,进行HPC中心的核心决策、管理和预算计划,而据他所知,山东大学、浙江大学都有类似的体制,而高校HPC未来也将成为地区性的高性能计算节点,进行些商用、民用和国家应用尝试。
高校建HPC:理清应用是关键
去年8月的ChinaGrid大会上,服务器在线曾见到过两位英特尔服务于高校和HPC的专家:英特尔(中国)有限公司亚太客户响应团队技术经理何万青博士、英特尔(中国)有限公司企业解决方案部教育行业中国大区经理姜涛先生,当时,何万青博士提到他的一项重要工作就是:“帮助高校客户理清他们的应用特点,即针对他们的HPC应用进行特性分析。”而这,也是高校建HPC的关键。像在魏晓辉的高性能计算中心里,就不仅仅有瘦节点的架构,还有胖节点的HPC。
正是各个应用的不同,才导致了各个院系之间对HPC需求的不同,当然,题外话,核心的话题是,不应用所体现出来的特性不一样,有的是内存敏感型,有的是主步敏感,有的是I/O敏感,所以,建设HPC要从几个重点,如处理器、内存、IO、网络负载等方面去着眼,经过大量的应用程序分析,确定HPC中心常用的应用程序的负载类型,然后才总结出其应用的特性,最终进行正确的设备选型——像气象研究就是缓存和内存敏感的应用程序偏多,处理器主频并非核心影响因素,像魏晓辉测试至强5600的VASP就是内存敏感型,在英特尔的测试中,最大内存使用达到1GB,每个核心的内存通道带宽需要3.2GB/s,而分子模拟方面的Amber10程序则只需0.2GB/s的内存带宽,类似的还有GROMACS和DACAPO。
在这方面,英特尔是走在前沿的,在至强5600发布会后的采访中,英特尔解决方案部中国大区技术部经理梁岩先生就表示,“将来国内的大部分高性能计算除了强调科研成果的同时一定要考虑商业运作的支撑能力和支付能力,一个是应用的实际效果,一个是成本和产出比考虑,是整个系统综合的效能是一个关键因素。”因此,英特尔会和合作伙伴、OEM、最终用户会持续关注应用的特征模型,帮助他们找出中间关键性能的点,从CPU、主板、I/O的吞吐能力整个系统的协调能力和软件优化层面多方位和客户一起合作。梁岩说,这项工作是英特尔从去年一直到今年,再到未来都会去做的事情,大家会“在一些项目里会陆续看到一些最终优化完的实际效果的展示案例出来。”
而在魏晓辉建立新HPC中心的招投标过程中,英特尔和其OEM合作伙伴,在这方面做的显然要比竞争对手好得多,这从魏晓辉的回答中已经能够得到答案。不过,魏晓辉也毫不掩饰的表示,选择最后的供应商和英特尔平台,“很简单就是性价比决定的”。
HPC“旧”蓝海:打“葛朗台”的算盘
之所以称高校的高性能计算中心建设是HPC“旧”蓝海,主要是因为高校建立HPC的意愿和需求是长期以来存在的,但是其在升级、大规模建设以及新一代数据中心建设上面的积极性却并不高,而另一方面,新时代学科研究和教学都需要完善的高性能计算平台来进行支撑,所以,高校的高性能计算建设既是蓝海又是长期固有的。
高校HPC中心长期以来之所以不能得到释放,建设费用的吃紧是一个重要原因,而更深一层的原因则包括HPC的利用,以及HPC的升级换代——在高校,HPC的升级比初期建设要困难的得多,我的一位亲戚在北京某高校任职汽车学院教授,院里校里都对HPC很重视,在国外的汽车学院,拥有完善的工业设计、空气动力学测试、力学测试的HPC中心司空见惯,但是该校的汽车学院的HPC中心已经三年多没有过升级,即使是非HPC的服务器应用,其生命周期也已经进入了晚期。
这也就是为什么像至强5600这样的处理器能够得到魏晓辉青睐的原因,正如他的测试结果所显示的,至强5600对比一年前的至强5500,在相同的微架构平台上——意味着无需更换主板、机箱和内存——随着制程工艺从45nm走向32nm,实际应用性能/耗电(性能功耗比)提升了22%,每核的功耗下降明显,可以说,至强5600不仅提高了科学计算的效率,更大幅度实现了绿色计算的数据中心愿景,当然,减少电费和工作时间,提高单位供电上的计算量都有着极大的帮助。
而对于普遍升级困难的高校HPC中心,至强5600这样的处理器足以拨动“葛朗台”的算盘——主要原因自然是价格和性能比优异——新的至强5600提出了对原有单核服务器15:1的整合率,而这也就意味着,高校的HPC中心能够提高至少超过10倍的密度,计算密度的提升则显然会更高。
相对于一年前发布的至强5500,新的至强5600面向高性能计算的性能提升能够达到63%,六核心的新处理器除了核心的增强外,L3高速缓存从8MB升级到了12MB,最高主频提升从2.93GHz提升到了3.33GHz,而相应的CPU浮点性能从46.88GFLOPS提升到了79.92GFLOPS,而在低功耗DDR3的情况下,还能够节省达到0%的内存耗电——最可贵的是,每千片至强5600的价格和至强5500是一样的。
而另一个有力证明是新一代的至强5600最低端的L5640的性能,与上一代最强的至强5570是几乎一致的,而功耗却从95瓦下降到了60瓦,功耗降低达到60%。
减少了三分之一的耗电,大幅度提升单位面积上的计算密度,价格却变化不大,这些省钱、省地方的特性尤其能够打动校领导的“心扉”,而且魏晓辉说:“校领导比较喜欢新的,最先进的东西。”——3月17日发布的至强5600,现在才刚刚开始升温。
当然,谈到至强5600只是一个例子,在面向不同的市场和定价策略时,高校建设HPC平台完全有多种选择,至强5600是一个选择,面向胖节点的至强7500也是一个选择,而面向替换RISC架构的安腾9300也并不是不能够建立好的HPC平台,对于高校来说,针对实际的应用,面向未来的学术研究和实验科研,才是最终选择HPC平台的主要参照物。
除此以外,钱、权和房的问题,其实都并不是不能解决的,但如果平台建设从根本的理念上不能够树立面向应用、提高能效、长期发展的理念,其实才是建设HPC平台最可怕的失败。