英特尔至强融核不出 GPU高性能计算谁与争锋

英特尔至强融核不出 GPU高性能计算谁与争锋行业资讯

2012-11-14 来源：比特网

今天我想有不少人已经看到新闻了，最新一轮的HPC TOP500名单已经公布。作为全球高性能计算行业的风向标，我们在以前可能看到的更多是新一代使用CPU（比如Intel Xeon E5）、GPGPU（如NV

今天我想有不少人已经看到新闻了，最新一轮的HPC TOP500名单已经公布。作为全球高性能计算行业的风向标，我们在以前可能看到的更多是新一代使用CPU（比如Intel Xeon E5）、GPGPU（如NVIDIA Tesla）的系统有多少套上榜之类的亮点。而本次英特尔的至强融核（Xeon Phi）协处理器一共有7套上榜，并且最高排名第七，这或许宣告着一个新时代的来临——单纯依靠通用处理器来构建HPC系统的时代即将过去，而Xeon Phi也正式对以NVIDIA GPGPU为代表的异构计算发起挑战。

　　在本月2日的中国科学院计算技术研究所——英特尔联合实验室揭牌仪式上，中科院计算所所长孙凝晖博士也表达过类似的观点。

1997年，第一套使用Intel处理器的Teraflop（浮点运算次数）系统一共使用了9,298颗CPU，占用空间达到72个服务器机柜。而今，英特尔至强融核协处理器提供1Teraflop的性能之需要一块卡，占用1个PCIe插槽（宽度为双插槽）。

　　可能有人会说，NVIDIA在数年前的T10（Tesla C1060/M1060的代号）就达到了1Teraflop，不过当时可是单精度浮点性能，双精度需要除以8。也就是说Xeon Phi相当于达到了当今GPGPU计算能力的主流水平，不过它的优势主要并不在这里。

第一项“性能、性能功耗比”，对于一般并行化计算，CPU擅长而加速器（GPGPU）和Xeon Phi不擅长；高度并行化计算则是后两者擅长，通用CPU的表现一般。

　　接下来的“硬件特定编码”和“限制因异构产生的总拥有成本（TCO）”方面，加速器处于劣势，因为NVIDIA和AMD的GPU上面运行的程序都要用CUDA等开发环境重新编写，与x86 CPU软件完全是两码事；而Intel Xeon Phi尽管也需要重新开发应用，但由于众核架构中使用了超过50个P54C（当年的Pentium 75-133的代号）核心，总的来说还能沿用x86指令集的编程体系。

Xeon Phi的制造工艺采用了Intel当前最先进的22nm 3-D栅极晶体管，并支持最新的Intel软件开发产品。对于Linux操作系统这一点，今天我与英特尔服务器平台产品经理张振宇先生进行了确认——Xeon Phi是可以不依赖传统Xeon CPU直接运行的，BIOS等方面需要做一些小的改动，但为了兼容大量传统x86应用目前还没有推出这样的平台。

　　这一点让我们想起了NVIDIA计划在其未来GPU中加入ARM，以便独立启动Linux OS，但现状是——适合，或者说这些协处理器能够运行的应用还比较有限。也有媒体朋友与我讨论：如果主板上取消CPU插座和相关电路，能够降低系统的构建成本，但Xeon Phi会不会影响Xeon的出货量呢？计算发展的趋势也许不以人的意志而转移吧。

现在Xeon Phi宣布了2款产品：3110和5110P，后者现已发货（限制对部分客户），前者还要等到明年上半年。Xeon Phi 5110P峰值双精度浮点计算性能为1010 Gigaflop（1.01Teraflop），配备8GB GDDR5内存——带宽320GB/s，225W TDP（热设计功耗）采用被动散热设计。宣称针对内存密集型应用。

　　再看Xeon Phi 3100，性能只比5110P略低一点，6GB GDDR5内存的带宽为240GB/s，价格也低于5110P。而3110的TDP却高达300W，因此分为主动和被动散热两种外形设计。

　　据Intel介绍，Xeon Phi 3100的核心数量有所精简（内存总线的位宽应该也是如此），通过较高的频率来弥补性能，这又让我们想起了GPU。于是3100就不太适合大型HPC等密集型应用，因为即使被动散热对气流和供电的要求也提高不少。基于工作站的单机/小型集群环境应该更合适些吧。

　　下面，我们列出来自不同行业的客户在Xeon Phi产品测试阶段的第一手应用体验（一共是4家）。