摩尔芯闻 > 行业新闻 > 半导体 > ​Arm服务器芯片终于到了逆袭时刻?

​Arm服务器芯片终于到了逆袭时刻?

半导体行业观察 ·2020-03-19 09:10·半导体行业观察
阅读:4125

来源:内容由半导体行业观察(icbank) 编译自「 thenextplatform 」, 谢谢。


有一点很明显,由于疫情的爆发,全球将陷入衰退。也许这将是一个V形的衰退,它会快速下降并以几乎相同的速度恢复,又或者会急剧下降,并且恢复正常的时间更长。但正如我们之前指出的那样,我们认为IT技术的过渡将通过这种艰难的尝试而加速,并且这可能很快就会发生。毫无疑问,在未来数天,数周和数月内,企业将对进入数据中心的每种硬件的每美元性能和每瓦性能方面更加关注。

就服务器而言,拥有Epyc处理器的AMD可能是最大的受益者,因为它是最便宜的英特尔至强SP处理器的直接替代产品。尽管Arm服务器芯片的新贵公司Ampere Computing和Marvell最新都更新了他们的产品,公布了他们的路线图。尽管他们没有豪言,公司的产品会全球流行,但毫无疑问,他们也将是预算紧缩的受益者。相信他们的芯片样品将迅速派送到各大公司,产品也很快能投入市场。

我们已经在两周前发布了Ampere Computing即将推出的“ Quicksilver” Altra处理器及其未来路线图,并且在本周还回顾了Marvell即将推出的“ Triton” ThunderX3处理器及其未来路线图。现在,我们将对这两家芯片制造商在讨论即将推出的服务器芯片时所做的性能和性价比进行竞争分析。

我们充分意识到,任何供应商对性能的要求都必须花些力气,但我们也知道服务器购买者至少需要对处理器性能有一个基本的了解,他们才可以弄清楚。哪些处理器可以测试其工作负载。您必须从某个地方开始才能获得评估机,以便在实际工作负载上运行实际性能基准。没有人会建议别人根据供应商竞争对手的分析来购买机器,这绝对是愚蠢的。我们的理念是提供尽可能多的信息,然后提供一些明智的评论,说明如何在供应商和体系结构之间进行比较。比较可能令人讨厌,但这并不意味着不必进行比较。

在开始之前,有几件事我们必须说明一下。在我们发布了ThunderX3芯片上的一些细节后,引起了一些争议。有人指出,Marvell 在对比其新发芯片在与Intel稍后发布“ Ice Lake” Xeon SP芯片的每核性能时。Marvell在自己的设备和Intel的设备上都使用了开源GNU编GCC编译器进行了比较,而不是使用Intel C ++编译器(ICC)。这种做法引起了争议。

但正如我们在文章中所说的,这是一个基准性能,并且我们认为这种使用一致的译器,跨代和跨架构运行没有绝对价值,而且我们还认为人们对于很多负载有不同的理解。ICC编译器在各种工作负载下的性能提高了约20%。不幸的是,它们中的许多都是微基准测试,它们的编译器经过调整后可以以峰值效率运行SPEC测试等程序,并且可能无法反映许多实际应用程序会看到的基准性能。

因此,我们的态度是,所有CPU都应在GCC上运行标准测试,因为在所有CPU上对它的支持均相同(或差强人意,具体取决于您要如何看待它),然后每个供应商都应提供他们经过优化的编译器以展示他们在这些微基准和其他系统级软件(例如数据库)上获得的提升,然后通过这种方式测试实际的工作负载。

芯片制造商提供的这种基本信息仅仅是漫长过程的开始。但这甚至是参与CPU购买决策的前提。价格也是如此,与X86相比,在产品真正推出并且我们也看到价格之前,我们无法真正对Arm服务器芯片进行全面分析。(Ampere Computing和Marvell在价格/性能方面给出了一些提示,我们可以进行反向工作以获取各自产品系列中至少几个SKU的初始价格。这使我们开始思考这些不同的芯片可能如何互相堆叠。)

让我们从Ampere Computing以及它认为第一代Altra芯片将如何与数据中心的竞争相抗衡开始,从SPECrate 2017 Integer测试开始:


经测试的Ampere Altra芯片可能是80核的版本,但我们对此还不清楚,但我们可以确定的是,被测系统有两个以3.3 GHz Turbo Boost速度运行的Altra处理器,并且它们在启用了Ofast,LTO和jemalloc选项的GCC 8.2编译器上运行SPEC整数测试。

要获得AMD“罗马” Epyc 7742(具有64个运行于2.25 GHz的内核)的数据,我们可以从Dell PowerEdge R6525服务器去年11月做的相关测试获取结果。相关数据显示,他们使用AOCC编译器获得的系统基本速率为667。

然后,Ampere Computing用乘以83.5%将其标准化为GCC,它认为是带有基本选项的AOCC 2.0与带有上述选项的GCC之间的比率。这样一来,该两插槽计算机的估计等级为557,因此每个Epyc 7742处理器的等级为278.5。从此图表向后看,具有80个内核的Ampere处理器的整数omph大约增加4%,即289.6。

为了获得英特尔至强SP的数据,Ampere Computing选择了Dell PowerEdge R740xd作为参考,该产品于2019年3月使用一对28核“ Cascade Lake” Xeon SP 8280 Platinum芯片进行了测试。,其运行频率为2.7 GHz。这台机器的基本SPEC整数额定值为342,在将其转换为估计的GCC结果后,乘以76%的收益率得出260,结果为130。顺便说一下,英特尔在GCC级别的收益为4.64 /核每个内核为4.35,而安培计算为每个内核3.62。

下表中,Ampere Computing所做的事情困惑。他们将不同的AMD Epycs和不同的Intel Xeon SP与Altra进行比较。在某些比较中,它使用的是较低档的Altra部件。我们将在下面显示的表格中尽可能地对此进行标准化,但让我们回顾一下之前Ampere Computing所说的内容。

我们弄清楚的第一件事是,看起来最上面的Altra部件将的功耗205瓦,而不是200瓦,因为这是下表中显示的数字得出的唯一方法:


假设它在比较中保留80核的一部分,但使用了较慢的180瓦部分(在这些图表的注释中已提到),您会注意到,对于上面的比较,它已转移到AMD Epyc 7702。与第一张图表中所示的225瓦Epyc 7742相比,它拥有64个核心,并以低11%的时钟速度运行,而功耗也降低11%到200瓦。同样,此处比较的Intel芯片是Xeon SP 8276,它具有28个运行于2.2 GHz频率的内核(比Xeon SP 8280下降了18.5%),价格为8,719美元(比Xeon SP 8280的$ 10,009价格下降了12.9%)。

该图表讨论了相同处理器的每核瓦数比较:


与Epyc或Xeon SP处理器相比,Ampere Altra芯片的内核没有omphie,因此每个内核的瓦数更低也就不足为奇了。

根据所有这些不同的SKU和数据点,以下是一个汇总表,将它们加在一起,包括GCC性能估算值:


基于这样的想法,如果想提供与英特尔和AMD同样的每瓦特性能表现,Ampere Conputing必须在芯片级提供至少20%的价格/性能优势,而这是控制 hyperscalers和云服务商提供商购买决策的因素,这正是Ampere Computing 的目标市场。根据一些非常认真的猜测,我们还了解了180瓦Altra部件的外观。我们认为,这种芯片的定价将更加激进,只对对标那些命名为Gold的处理器,例如新的Xeon SP 6238R。

这使我们进入了Ampere Computing平台中最后一张图表,该图表显示了以下四个芯片之间的每总拥有成本增量的性能:


这是系统级别的比较,使用Altra处理器的服务器机架使用了一对180瓦处理器加上16个16 GB内存棒(256 GB内存),一对以太网NIC,1 TB SATA驱动器以及基础组件,例如,底板管理控制器,电源等。AMD Epyc 7702服务器具有类似的配置,而两台Intel机器假定十二个存储,因为每个插槽只有六个内存控制器。Ampere Computing创建了一个TCO工具,可以完成所有这些数学运算,大概可以使用许多服务器和不同的CPU SKU。

这张图说明的是,基本上,使用一对Xeon SP 8276处理器在服务器机架上花费的每一美元,如果使用180瓦Altra处理器机架时的性能将提高近四倍, 如果与价格更为合理的Xeon SP 6238R处理器的系统机架相比,这个倍数是 1.63X。如果与AMD的 Epyc 7702处理器的系统机架相比,倍数则变成1.41X。虽然我们不能猜出Ampere Computing在其TCO工具做了什么,但是我们希望在该TCO工具可用时使用它。

哪里有雷声,闪电(Thunder)袭来


正如我们所说,Marvell也提供一些性能数据,尽管它是不同的类型,但与Cavium过去在启动ThunderX1和ThunderX2处理器时提供的数据类型一致。

Marvell希望每个人都考虑的第一件事就是每个处理器可以承载多少个虚拟机。顶级Triton ThunderX3部件具有96个内核,每个内核具有4个线程,即从理论上讲每个可以支持虚拟机的384个线程。即使忽略线程并将虚拟机分配给一个内核,AMD Epycs仍排在64个内核之上,这比Marvell高出50%,而英特尔,实际上,出于所有实际目的,排在28个内核或3.4X以上的优势。如果要为每个VM执行线程处理,那么Marvell与Intel相比的优势是6.85倍,与AMD相比的优势是3倍。

这是Marvell另一个有趣的图表,它讨论了同时多线程(SMT)对各种工作负载的影响。



现在让我们开始与X86比较。在测试中,Marvell着眼于芯片的SPECrate 2017 Integer Peak性能。ThunderX3是CN110XX的变体,具有96个内核,运行于2.2 GHz,并具有240瓦的热设计点,可将其 turbo提升至3 GHz。将它们与205瓦的28核Intel Xeon SP 8280 Platinum和225瓦的64核AMD Epyc 7742进行了比较。Marvell会在必要时进行从把ICC和AOCC编译器调整到GCC的水平,并在可能的情况下使用GCC编译器将这些架构中的所有内容标准化为GCC性能水平。

这是这三个处理器的相对性能,并针对Epyc 7742芯片进行了进一步归一化(意味着,它们的性能设置为1.0,其他处理器则与此相对):


顶级的ThunderX3在性能上比Epyc有很多优势,有时Xeon SP芯片的性能要优于Epycs。在解释由Elasticsearch衡量的网络搜索延迟时要小心。在图表的该部分中,越低越好,而不是更糟。


现在,我们可以洞悉Marvell如何将顶级的ThunderX3与HPE工作负载的AMD Epyc 7742和Intel Xeon SP 8280相提并论:


该公司表示,由于预计四个SIMD单元的时钟速度更高,因此Marvell将比Cascade Lake Xeon SP和Rome Epycs具有原始浮点优势。与Rome芯片相比,它在内存带宽上的优势也较小,当然与当前的Cascade Lake芯片相比也有一些优势,但与英特尔计划在今年推出的“ Ice Lake”至强SP相比则优势不明显。如您所见,基于ThunderX3的系统在关键HPC工作负载方面有望比Rome芯片更具优势。

但我们的问题是,ThunderX3如何与今年晚些时候发货的“ Milan” Epyc 7003系列芯片相匹敌。这很难说,但是这种差距可能会缩小。如果Marvell在此提供绝对而非相对的性能,那将很有用。

*点击文末阅读原文,可阅读 英文 原文

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2253期内容,欢迎关注。

推荐阅读


博通的芯片危机

考验中国本土MLCC的时刻到了

国内SiC产业加速出击

半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

“芯”系疫情 |传感器 |IGBT 存储 氮化镓|英飞凌|中美贸易|半导体股价|芯片测试



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

点阅读原文,可查看英文原文链接!

分享到:
微信 新浪微博 QQ空间 LinkedIn

上一篇:揭秘台积电5nm CMOS技术平台

下一篇:iPad Pro的新A12Z处理器芯片中的“ Z”是什么

打开摩尔直播,更多新闻内容
半导体大咖直播分享高清观看
立即下载