摩尔芯闻 > 行业新闻 > 半导体 > Arm服务器芯片再添强援,Marvell发布96核Thunder X3

Arm服务器芯片再添强援,Marvell发布96核Thunder X3

半导体行业观察 ·2020-03-17 09:12·半导体行业观察
阅读:1628

来源:内容由半导体行业观察(icbank) 编译自「 anandtech 」,作者: Andrei Frumusanu 谢谢。


Arm服务器生态系统充满生机和蓬勃发展,经过几年的错误启动尝试,终于进入了新的阶段。Cavium是该领域的最初开拓者之一,他们在2018年被Marvell收购。虽然他们发布的第一代ThunderX仍有很多不足之处,但ThunderX2是我们认为可与Intel和AMD产品竞争的第一个Arm服务器芯片。从那以后,生态系统已经加速了很多。到上周,我们看到带有Arm最新的N1内核的Amazon Graviton2让人印象深刻。但Marvell并没有停止在ThunderX2上,并且对其新收购的CPU部门抱有很大的野心,今天,他们终于宣布了新的ThunderX3。


ThunderX3是TX2中Cavium自定义微体系结构的延续和后继产品,它采用了许多关键特性,尤其是4路SMT的功能。新的TX3采用具有更高IPC功能的新微体系结构,还提高了时钟频率,现在可容纳多达96个CPU内核,从而使该芯片在单个插槽中最多可扩展384个线程。


随着越来越多的应用迁移到云中,应用的性质发生了变化。与此同时,越来越多的客户开始使用自己的自定义软件堆栈并扩展这些应用程序,Marvell也看到生态系统在工作负载方面发生的这些变化。他们也知道这意味着工作负载并不一定只专注于单线程性能,而是专注于系统中可用的总吞吐量这个新趋势。这时,功耗成为了一个重要角色。


像许多其他Arm服务器芯片供应商一样,Marvell看到了当前x8不能企及的机会之窗,这在很大程度上体现了英特尔过去几年中在工艺方面的困扰,并且总体而言,x86设计具有更高的功耗。Marvell认为,造成这个问题的部分原因是当前的x86玩家在系统设计上具有广泛的部署目标,覆盖了从消费者客户端设备到实际的服务器计算机,但这就导致他们在任何任何一个工作负载中都从未真正实现最佳结果。相反,据报道,ThunderX系列产品是专门为服务器工作负载而设计的,能够实现更高的电源效率,从而在系统中实现更高的总吞吐量。


我们已经知道ThunderX3已经出现了很长一段时间,现在Marvell终于准备好谈论新芯片了。Marvell的CPU路线图以两年为周期,他们表示,这是一个实际的时间表,允许客户有时间实际采用一代产品并在该平台上获得良好的投资回报,然后才有可能切换到下一个产品。当然,这也为设计团队提供了更多时间,以便在新一代产品就绪后将更大的性能提升推向市场。

ThunderX3-Arm v8.3 +中的96核和384线程

那么,新的ThunderX3是什么?这是一个雄心勃勃的设计,可容纳多达96个Arm v8.3 +自定义内核,这些内核可以高达3GHz的全内核频率运行,TDP的范围为100至240W,具体取决于SKU。

Marvell尚未准备好详细介绍新CPU微体系结构的许多细节,称他们将在今年晚些时候对TX3内核进行更深入的披露(他们的目标是在Hotchips上),但他们的确表示其主要特点之一是它现在具有4个128位SIMD执行单元,这与AMD和Intel内核的向量执行吞吐量相匹配。充分使用这些单元后,受芯片可用的散热和功率余量的限制,全内核的时钟频率回落到2.2至2.6GHz之间。

有了SMT4,96核SKU可以在一个插槽中最多扩展384个线程,这是迄今为止市场上任何当前和即将推出的服务器CPU的最高线程数,这是ThunderX3的一大与众不同的因素。

Marvell没有详细介绍芯片的拓扑结构或封装技术,只是暗示它在CPU内核之间具有整体等待时间。设计使用了1个或者2个的插槽配置。其内部通信使用CCPI(Cavium公司高速缓存一致性互连),在两个插口之间有24条通路,每条的的速度为28Gbit/s。

外部连接由64个PCIe 4.0通道处理,每个插槽带有16个控制器,最多意味着16个4x设备,并且可以选择多路复用,以给8x或16x设备提供更高的带宽连接。

该芯片的存储功能符合当前的标准,具有8个DDR4-3200存储控制器。

Marvell规划了多个SKU,计划在100W至240W的TDP目标中扩展内核数量和内存控制器。这些都将基于相同的芯片设计。

大幅提升新一代韩品的性能

与上一代ThunderX2相比,TX3的性能提升令人印象深刻。据说IPC至少增加了25%的工作负载,加上时钟频率增加,总的单线程性能至少提高60%。如果我们使用现有的TX2数据,这意味着新芯片将比Neoverse-N1系统(例如 Graviton2)稍早着陆,并与更激进的时钟设计(例如Ampere Altra)相匹配。

Socket-level 的整数性能至少提高了3倍,这要归功于功能更强大的内核以及将内核数量大幅增加到多达96个内核。由于新的CPU现在具有更多的SIMD执行单元,因此浮点性能也更高,可提高到5倍。


由于该芯片带有SMT4,并且已针对云工作负载进行了设计,因此与其他非SMT或SMT2设计相比,它能够从芯片中获取更多的吞吐量。这里的云工作负载本质上是指数据平面(data-plane)绑定的工作负载,在其中,CPU必须等待来自更远来源的数据,而SMT可以通过以下方式进行设计:将数据访问之间的空闲执行时钟简单地由不同的线程来填充,这需要很长时间延迟访问本身。


利用这个又是,这使得ThunderX3在与现有的x86玩家向碧是,具有显着的吞吐量优势,大大超过了英特尔目前提供的任何性能,并且凭借SMT4,在数据平面绑定的工作负载中击败了AMD的Rome系统。

ThunderX3的性能声称可与竞争对手抗衡

然而,对于HPC尤其是浮点工作负载,由于增加了SIMD单元以及系统的整体电源效率,据称ThunderX3也能够展示其优势,从而在计算中显着提高了性能。内存带宽也比基于AMD Rome的系统高,因为TX3可以实现较低的延迟。值得注意的是,ThunderX3将于今年晚些时候上市,届时它们将不得不与AMD较新的Milan服务器CPU竞争。



Marvell表示,云中的Arm越来越受青睐,就其ThunderX2系统在公司和超大规模企业之间的部署而言,该公司已经是市场的领导者(Microsoft Azure目前是公开披露的一种,但据说客户更多)。我真的不知道在单个芯片上托管大量虚拟机是否真的是一个优势(由于SMT4,每个VM的性能可能很差),但Marvell确实指出,借助可容纳多达384个线程的ThunderX3,他们会成为领导者。因为在该指标上,他们处于领先地位。


最后,由于更具针对性的微体系结构设计,该公司声称在平均不同的工作负载下,其性能/性能比AMD罗马平台高30%。比较有趣的是,ThunderX3相对于诸如Graviton2或Altra之类的Neoverse-N1系统表现如何,这是很关键的。因为毫无疑问,后者将成为与Marvell新产品最接近的竞争对手。鉴于Altra尚不可用,我们不确定这些系统将如何相互竞争,但我认为ThunderX3在至少FP工作负载上能做得更好,当然,借助SMT4功能,它具有无可争议的优势,至少可以在数据平面工作负载中工作。


Marvell尚未透露有关缓存配置或系统其他任何细节的信息,例如,内核将使用哪种互连或将采用哪种CPU拓扑。ThunderX3的成功似乎取决于如何它能够在所有96个内核和384个线程上扩展性能。

作为初步印象,它似乎做得很好。

*点击文末阅读原文,可阅读 英文 原文


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2251期内容,欢迎关注。

推荐阅读


国内SiC产业加速出击

芯片的3D化

芯片测试科普

半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

“芯”系疫情 |传感器|IGBT| 存储 氮化镓|英飞凌|中美贸易|半导体股价|芯片测试



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点阅读原文,可查看英文原文链接!

分享到:
微信 新浪微博 QQ空间 LinkedIn

上一篇:[原创] 手机厂商为何都盯上了这家芯片公司?

下一篇:​Silicon Labs收购了一家WiFi芯片公司

打开摩尔直播,更多新闻内容
半导体大咖直播分享高清观看
立即下载