走进NASA世界一流高性能计算数据中心

2010-05-05 比特网编辑：王允

　　如果你是美国宇航局(以下简称NASA)的格伦研究中心的一名材料科学家，或者是约翰逊航天中心、Marshall空间中心的一名工程师，或者是任何一名其他超级计算机的工程师的话，他们只有一个地方可去。

　　这个地方就是拥有先进超级计算设备的艾姆斯研究中心，Pleiades的“家”——这是NASA的旗舰机器，这台巨大的机器现在它的每秒浮点计算能力达到了973万亿次，大概是世界第六的超级计算机。

　　根据高级超级计算机部门的负责人Rupak Biswas介绍说，这里的超级计算大概服务1500个用户，覆盖整个NASA。这几乎就像是一个永不关门的商店一样，并且需要NASA为这些高端的机器提供最强劲的处理器。高级超级计算机部门不仅提供强大的计算能力，还提供给用户一个完全集成的环境，让大家有机会接触到机器，并在这里帮助他们获得机器的最大优势。

　　Pleiades就是其中一台(但不是全部)不断进步的机器。当2008年安装的时候，Pleiades是世界上排名第三的超级计算机，当时的每秒浮点计算能力大概在487万亿次，现在这台机器提升计算能力近一倍，但即使是这样，它仍然掉了三个名次。基于SGI的Altix ICE系统的Pleiades仍然有扩展空间，Rupak Biswas和他的同事们正准备增加更多的SGI机柜。

　　对于NASA来说，这种扩展是必须的，因为计算需求的增长毫无止境。在部门中，Rupak Biswas必须支持授权任何人在计算机上的时间，用于做天气预报模拟、厄尔尼诺现象引起的气候变化、如何理解星系合并或者航天器的下一代研究。

　　25年不断演进的NASA超级计算机

　　上周，笔者终于得到机会进入NASA，见到了这个Pleiades的“真身”。Biswas解释了他和他的团队的一天24小时以及一周七天协调Pleiades和其它机器时间使用，确保NASA科学家们的应用程序性能优化、数据分析以及虚拟化、网络支持。

　　本质上来说，这些超级计算机正在为永不停歇的模型和定义工程所使用，Biswas表示，几乎部门提供的所有计算机都有可用的周期。

　　当NASA开始提供高端机器已经好多年了，但是当1984年超级计算机开始迎进门的时候，部门改变了这种应用模型，开始以提供“先进的创新网络为中心的计算能力环境”为重点，根据2008年部门25周年庆的手册中得知。

　　很所事情在那时候开始发生长足的改变。部门的第一台超级计算机是Cray的X-MP，只有210亿次的计算能力，甚至低于现在一台苹果Mac Mini个人电脑的计算能力。但是这么多年过去，超级计算机也在摩尔定律的推动下发展，Biswas告诉笔者，现在的机器都是基于最新的处理器。

　　2003年，哥伦比亚号航天飞机爆炸，NASA进行了最为全面的调查，试图确定这是什么造成的灾难。而且这成为2004年最新的超级计算机被命名为哥伦比亚的原因。

　　但是这并不是唯一的驱动力，Biswas表示。这同样也是国家竞争力的一种体现。实际上，尽管很多美国人认为日本人虚张声势，在日本的科学家设法建立“ Earth Simulator”，当时世界上最快的超级计算机，Biswas说到，“这还是引起了很多人的恐慌，人们认为美国失去了在超一流计算机上的领导力。”

　　当2004年哥伦比亚被安装的时候，已经超越了日本的机器，不仅仅使得NASA的超级计算机成为世界第二，一台新的位于劳伦斯利弗莫尔国家实验室的超级计算机登上了世界第一的位置。那时，Earth Simulator已经失去了顶端的位置。

　　三年周期

　　超级计算机就好像其它级别的机器一样：有限定的生命周期——在这里，这个周期大概是三年。在此之后，Biswas解释说，“那就是不符合成本效益的运行了."

　　从产业来看，高端服务器的更新非常快，哪怕是经过一小段时间，新技术也会超过当时的最尖端。此外，该行业总在快速发展，找到更好的方法去制造更大的”集装箱“，这意味着他们比旧模型有更低的功耗。”超级计算机发展得如此之快，“Biswas说道，”从经济效益上来看，运行一台旧机器根本不值得。“

　　Rupak Biswas，高级超级计算机部门负责人，他身后的就是超级计算机“Pleiades”

　　在三年的周期中，高级超级计算机部门会不断关注高性能计算领域新技术的发展，从不同的系统供应商那里收集策划案，制造小的测试床。在结束新机器上的“踢轮胎”之后，会观察在实际的超级计算环境中会是什么样的运行状态，看新机器将会如何支持我们现有的应用，在这之后，是否购买这台机器也将会做出决定。

　　之前他们购买了游SGI的机器构成的Pleiades，这一次，NASA倾向于购买IBM的P575+以便对其进行评估。最终，该部门决定使用SGI，但是IBM的设备也仍然在艾姆斯的超级计算机里服役。

　　进入亿亿次时代

　　现在，世界最快的超级计算机已经超过千万亿次，Biswas介绍说，现在世界上有五台这样的机器，，两台在美国橡树岭国家实验室，一台在中国(天河一号)，一台在德国，相较之下，Pleiades明显落后。但是，NASA已经有了设计“exaflop”(百亿亿？)级别超级计算机的想法，Biswas解释说，这大概相当于一千个“千万亿次”。

　　当然，对于任何设计任何级别的超级计算机都有门槛存在，问题并不是硬件建设的难度，而是当系统建成后，如何去优化应用使之适合如何多的计算节点。Biswas说，还有另外一个重要的问题需要考虑，怎么去平衡能源效率？

　　一个Pataflop的计算能力大概就需要7兆瓦的电力，他解释说，如果不提高效率，一台exaflop的机器将会用掉7亿的电力。“你可不能指望在超级计算机的旁边还有个核反应堆。”他说。

　　最大的问题是，什么样的计算机应用能够适应这样的机器。但是在NASA有一个例子可以尝试，那就是天气预报。“往往我们都是从今天开始预报五天内的天气，其实，我们连今天都不能做到。”

　　究其原因，他解释说，即便是今天这样强大的超级计算机，也不可能创造精确的模式来判别某一种迹象与时间、天气是相关的。但是如果计算能力上千倍提高，那么在理论上是可以实现的。

　　另一个exaflop级别机器适用的应用是地球大气层与海洋关系的建模。这种关系必须加上陆地的具体位置，然后添加在这个地方发生了什么事情，“这是个巨大、复杂的计算”，Biswas表示，“不能要求今天完成了，这是exaflop的事情。”

　　当然，在NASA还有大量的火箭科学应用。Biswas说，工程师想要一个完整的发射数字模型可以充分利用exaflop超级计算机的用途。