AMD瞄准微服务器市场 Kyoto皓龙X处理器交战Atom S芯片
2013-06-03 ZDNet至顶网 编辑:刘树云
AMD采用BGA封闭方式的皓龙X芯片
皓龙X芯片采用与上周刚刚发布的三款低功耗Fusion APU芯片相同的“Jaguar”核心,后者旨在为客户机设备提供计算资源。微服务器与终端用户设备之间的连接利用客户机设备实现、而非传统的服务器芯片机制。
“芯片研发行业之所以如此伟大,是因为我们总能将不同方案中的优势加以推衍。轻量级CPU售价60美元,配套操作系统同样也需要60美元。而在智能手机或平板设备方面,CPU只需要9美元而操作系统则完全免费,”AMD公司服务器业务部门总经理Andrew Feldman在接受媒体采访时解释道。
“9美元的CPU几乎干不了什么正事,”他表示。“单独一块9美元CPU只能玩玩‘愤怒的小鸟’,或者作为显示前端将来自云体系的计算结果交付给用户。也就是说,这类任务最终要由数据中心处理。这种客户机角度的转变给数据中心带来巨大变革与严重压力。”
在某些情况下,客户需要强大的X86引擎来支持数据库、虚拟服务器实例或者内存内进程。然而对于应用程序缓存、Web服务、专用托管以及其它一些小型应用程序而言,双插槽或者四插槽标准服务器就显得有些多余,这时候只提供单插槽的微服务器反而是最佳选择。有鉴于此,AMD公司拿出了皓龙X芯片。
这款全新微服务器芯片分为两个型号:其一启用Radeon图形芯片,能够为服务器执行一些运算工作;其二则关闭GPU芯片,但拥有更低的能源消耗及产品售价。
四只核心“小猫”要把Windows和Linux大口吞下
“这款初次亮相的小型处理核心绝对堪称业界独一无二的瑰宝,”Feldman不无自豪地表示。
下面我们一起来看看刚刚推出的四核心Kyoto芯片与去年十二月面世的英特尔双核Centerton Atom S1200在性能参数上的比较,详情见下表。
皓龙X系列与Atom S1200参数对比
目前我们还不清楚Kyoto与今年下半年可能上市的八核心“Avoton”Atom S系列服务器芯片孰优孰劣。就在两个月之前,还有传言称Avoton将只拥有单、双或者四核心,但英特尔公司在披露新处理器“Silvermont”架构时已经明确表示,这款架构将把新一代Atom芯片推向最多八核心高度——这要归功于22纳米晶圆烘焙技术。
英特尔是否会在服务器组件产品中采用八核心机制也不能确定,但坦白讲,在处理某些特定任务时八核心Atom的实际表现甚至可能优于四核心“Haswell”至强E3处理器,同为四核心的皓龙X当然也不是对手。再有几天新的至强E3即将出炉,Atom S1200 v2系列也会在几个月内公布,到时候答案自见分晓。AMD公司委托GlobalFoundries负责Kyoto处理器的晶圆生产,并采用32纳米蚀刻技术。
但抛开这些尚无定论的传闻,目前AMD显然是微服务器领域的惟一焦点。
“数据中心内的所有组成部分都在发生变化,”Feldman指出。“在数据中心环境下,总是重复过去不可能带来革命性的新进展。我们正努力尝试其它路线——其中有些能奏效、有些则不能。”
他解释称,新路线中最显著的一点在于将注意力从高端x86服务器芯片组件身上转移到低端、低功耗且低售价的微服务器适用组件这边。AMD公司的关注重点在于推进每美元性能及每瓦性能等实际性产出,同时利用APU及其集成化图形处理器增加新功能,借以实现从面部识别到震波图分析等一系列与图形相关的处理工作。
这意味着需要通过开放计算项目实现基于AMD主板的开源服务器设计。当然,这也意味着通过收购被AMD招至麾下的SeaMicro需要直接向数据中心销售服务器产品,即同时与采购皓龙组件与英特尔至强E3的服务器制造商开展竞争。
皓龙X系列芯片分析图
皓龙X处理器拥有四个64位“Jaguar”核心。该芯片配备的2MB二级缓存将由四个计算核心共用,另外DDR3内存控制器则可以实现最大32MB的主内存共享功能。(这一数值已经是极限,进一步扩大需要增加内存通道并导致内存控制器体积增加,这既提高成本也会加剧发热量,特定工作负载能够使用高于这一限额的内存容量。)
该芯片支持最多两根1.6GHz SODIMM或者UDIMM类内存条,其二级缓存及主内存具备纠错功能,这一点对于服务器工作负载而言非常重要。芯片上还搭载PCI-Express 2.0控制器,共配备八个通道。另有负责八个USB 2.0端口、两个USB 3.0端口外加两个SATA 2.0或者3.0端口的专用控制器。
芯片本身不提供以太网控制器,相比之下尚未正式登场的英特尔Avoton则宣布搭载该控制器。不过Feldman表示,AMD公司最终肯定会将以太网卡支持机制接入皓龙X处理器。所有这些实用控制器都会被封闭在一个边长为24.5毫米的FT3球型网格阵列中,只需往主板上一插、所有功能将一一生效。
皓龙X1150拥有四个活动核心,主频为2GHz。所有核心都将正常启用,AMD也不会通过子排序来创建不同的SKU;即使实际情况与公布的不同,大家也完全可以像“破解门”事件那样自己启用核心。
不过X1150本身并不搭载Radeon HD 8000 GPU。根据芯片各部分组件执行强度的差异,皓龙X1150的设计功率在9到17瓦之间浮动。在包含一千单位处理器的服务器机架中,每块皓龙X1150的售价为64美元。
皓龙X2150与X1150在各项指标上完全一致,只是核心主频调整到1.9GHz,并能够在工作负载适合由GPU处理时将任务由Jaguar核心移交给GPU芯片。Feldman补充称,数据中心环境下的视频解压缩与视频编码解码会被皓龙X视为两类不同的用例。
GPU通过统一北桥(AMD官方称之为UNB)与芯片的CPU端口对接。X2150一千单位批量采购价格为99美元,设计功耗为11到22瓦——具体功耗取决于GPU与CPU的处理压力。
X2150上的128个Radeon HD 8000核心采用600MHz主频,能够同时处理两项总浮点运算量为每秒1540亿次的单精度进程。其双精度运算能力仅为每秒93亿次,虽然这样的成绩不算理想,但对于视频、震波、面部识别甚至是生命科学等常见工作负载而言,单精度运算速度才是首要目标。另外,大多数其它GPU对于双精度运算的适应性同样不高。目前只有英伟达公司的Tesla K20与K20X能获得不错的双精度性能,这是因为其设计思路专门迎合了某些对双精度计算拥有严苛要求的高性能工作负载。
现在的问题是,我们到底能把多少套Kyoto芯片塞进服务器中并为其提供内存资源。在一套惠普“Redstone”Moonshot 1500微服务器机箱中,我们可以获得最高277万亿次单精度浮点运算能力(这只是GPU的计算能力,还不包括CPU),但这意味着光是处理器一项就需要花掉178000美元——或者说每1万亿次GPU级浮点运算要花费643美元。
英伟达公司推出的Quadro K5000显卡采用K10图形芯片,专为专业处理任务所设计,其单精度运算能力为每秒2.1万亿次。对比之下,售价2249美元的K5000要花费1071美元才能提供1万亿次浮点运算能力,其单位成本明显高于Kyoto芯片。