解读HPC系统数据生命周期中的三种形态前沿技术

2011-07-05    来源:IT168    编辑:chuansir
集群计算以及部门和工作组高性能计算系统大型计算能力的持续增长已经对存储架构提出了挑战。

  集群计算以及部门和工作组高性能计算系统大型计算能力的持续增长已经对存储架构提出了挑战。输出数据的传统存储方法是通过一个或多个经由存储区域网络(SAN)或直连存储(DAS)连接到存储的服务器使用网络文件系统(NAS),传统的方法已经落后于大部分大型高性能计算安装基础对性能和可扩展性不断增加的需求。高性能并行解决方案的另一种方法可能更加昂贵,并且相对于NFS难于创建并维护。

  因此,很多中等的高性能计算设施正在竞争满足应用程序的I/O需求。研究计算社区的那些人认识到划算的,高性能,可扩展性,有弹性和易于管理的集中存储需求可能是当代的高性能计算设施面临的最大的挑战。

  从根本上说,高性能计算依赖计算能力,带宽和存储。这些因素互相依赖可能决定高性能计算解决方案的计算和信息容量。为更好的扩展,高性能计算应用程序在组成计算集群的大量的客户机中分配计算。高性能计算集群能够从十个延伸到上千个客户端,聚合的I/O请求从数十到上百GB/s一路排列下来到较小的具有更多适度的I/O性能需求的4节点集群。所高性能计算集群不管大小,共享很多共同的需求。

  随着CPU核心持续增加,对数据吞吐量的要求不断增加,需要计算节点访问GB,甚至TB存储数据并返回给存储。无论是计算还是存储,数据传输通常决定了系统的互连设计。使用Gb以太网和InfiniBand已经司空见惯,10Gb以太网正在变得更加便宜,网络带宽同样已经在可用性和速度方面持续增加,而且延迟在不断减少。

  计算集群和带宽增加可能需要大量的存储和/或高性能存储充分获得计算和带宽的潜能。随着应用程序产生和处理大量数据的增加以及集群中的每个主机需要统一访问任一后端数据,高性能存储变得日益关键。

  应用程序需求驱动了恰当规模的计算集群(核心数量),网络带宽/延迟和存储之间的相互依赖性。然而这使设计高性能计算系统成为一个挑战,促使灵活性的增加以便高性能计算系统可以调整以实现高性能并/或减少成本。集群的特点之一是精确的灵活性,提供组合组件创造更加有效的总体系统的可能性。存储也不是例外,不同的应用程序和工作负载产生不同的需求,可以通过恰当的存储组件和解决方案的组合解决。高性能计算系统基本的数据时间咒有几个离散阶段。
 

  1.为高性能计算应用程序生成输入数据。虽然工作任务的存储性能需求可能不同,但是存储的可靠性是必须的。如果丢失了应用程序的输出,你一般可能通过重新运行应用程序重建丢失的数据。然而,丢失输入数据可能需要花费大量时间和金钱重建,你甚至可能必须重做整个实验。

  2.应用程序执行数据I/O以及输出数据后处理/后分析。应用程序执行时读取或写入数据的初始阶段关注和应用程序的性能相匹配的I/O性能,以便任务在合理的时限内完成。取决于吞吐量和IOPS需求,可能需要使用高性能的可扩展性存储系统。本阶段的第二部分,应用程序运行后,输出数据被存储在一个可靠的存储系统用于分析。假使I/O需求非常低,数据将被迁移回主存储。在这种情况下,主存是可靠的存储区域,通常被备份以防止硬件故障的发生。

  3.归档数据。大多数用户想通过将数据存储在磁带,磁盘或者磁带和磁盘的组合可靠的在线归档数据。这样做,解放了不间断的应用程序和工程的主存储,如果应用程序或用户随后请求数据,仍然能够保持数据持续访问。通常情况下归档存储的容量请求比主存储请求高更多,但是性能需求更低。

  高性能计算处理的每个阶段——创建输入数据,运行应用程序生成输出并分析,归档结果——都有唯一的需求集合。伴随着无处不在的成本压力使单一的解决方案难于实现。

1
3