11月9日消息,RISC-V服务器芯片设计厂商Ventana Micro Systems在2023RISC-V峰会上发布了其第二代服务器CPUVeyron V2,在指令扩展、内核设计、互联标准、制程工艺等众多方面进行了全面升级。
官方宣称其性能超越了AMD的高端服务器芯片Epyc 9754,堪称最强RISC-V服务器CPU!同时,Ventana还能够让客户将定制加速器添加到定制片上系统 (SoC) 蓝图中。
早在2022年12月,Ventana公司就曾发布了全球首款基于RISC-V架构的服务器CPUVeyron V1。
采用5nm制程工艺,基于Ventana自研的高性能RISC-V内核,8流水线设计,支持乱序执行,主频超过3GHz,每个集群最多16个内核,多集群最多可扩展至192核,拥有48MB共享三级缓存,拥有高级侧信道攻击缓解措施、IOMMU和高级中断架构(AIA)、支持全面的RAS功能、自上而下的软件性能调整方法,可以满足数据中心的各种需求。号称性能可超越AMD EPYC 7763!
根据Ventana的计划,Veyron V1将于今年下半年上市,但是截至目前仍未有客户选择采用。这或许也是为什么Ventana急于推出Veyron V2的原因。
据Ventana 营销和产品副总裁 Travis Lanier介绍,全新的Veyron V2将融入RISC-V规范中的所有更新,比如RVA23功能集,这是今年的RISC-V最新的指令集配置文件,实现了RISC-V输入输出内存管理单元(IOMMU)规范,同时还支持小芯片的UCIe互联标准。
Lanier表示,IOMMU 规范的批准在 RISC-V 领域是一件大事。只要您拥有虚拟机,并且想要直接访问其中一个 PCIe 设备,您就不必执行所有软件开销来切换它,因此这对于数据中心应用程序来说是一项关键功能。
Veyron V2也希望成为一种基于RISC-V标准的兼容性设计,因此 RISE 支持很重要。
这也是RISC-V软件生态计划(RISE)兼容性的关键部分,这是一个行业项目,旨在围绕RISC-V构建必要的应用生态系统。Lanier进一步解释道。
Ventana还利用RISC-V矢量扩展规范在其核心中添加了512位矢量处理单元,还具有 AI 矩阵扩展功能。Lanier声称这将对某些生成式 AI 或推理工作负载有很大帮助。
另外,对于DSA和Chiplet标准UCIe的支持,使得他可以更快地制造芯片,并且可以让客户添加 FPGA,添加 ASIC 加速器等。这增加了灵活性,但也降低了进入门槛,因为它允许使用使用 UCIe 和 I/O 集线器的较小 IP 块来构建软件包。
Ventana联合创始人兼首席执行官Balaji Baktha在RISC-V峰会上也表示,Ventana客户可以使用其知识产权和其他知识产权在Veyron V2 上创建的潜在CPU设计。
具体到Veyron V2的核心配置方面,基于台积电4nm工艺,依然是基于8流水线设计,支持乱序执行,主频高达3.6GHz,单个集群的内核数量提升到了32个,相比上一代提升了一倍,多集群最多可扩展至192核。缓存的大小也增加到每个核心1MB二级缓存,以及128MB 的共享集群级三级缓存。
Lanier声称,Veyron V2 的所有新的升级使得其性能相比上一代提高了近40%。官方提供的性能预测数据显示,192核的Veyron V2性能超越了AMD高端服务器芯片Epyc 9754!
下面对于Veyron V2几大关键升级进行详细介绍:
互联标准的转变
VeyronV2 的一个重大转变是将支持作为Chiplet(小芯片)连接标准的UCIe(UniversalChiplet Interconnect Express)标准,而不是上一代的VeyronV1中的BoW(Bunch of Wires)接口互联总线协议标准。
据了解,BoW协议是一个开放的标准,由开放计算项目中的开放域特定架构小组控制。
包括Ampere Computing、阿里巴巴、AMD、Arm、思科系统、戴尔、Eliyan、富达投资、高盛、谷歌、惠普企业、IBM、英特尔、联想、Meta Platforms、微软、诺基亚、英伟达、Rackspace、希捷科技、Ventana和Wiwynn都支持BoW,这种广泛而廉价的芯片到芯片互连协议,使跨工艺和供应商混合小芯片的承诺成为现实。
但是在2022年3月,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google云、Meta(Facebook)、微软等十大行业巨头成立了Chiplet标准联盟,正式推出了通用Chiplet的高速互联标准UCIe,旨在定义一个开放的、可互操作的标准,用于将多个硅芯片(或芯粒)通过先进封装的形式组合到一个封装中。
UCIe 标准希望与其他连接标准(如 USB、PCIe 和 NVMe)一样普遍,同时为Chiplet连接提供卓越的功率和性能指标,降低IP移植及产品SKU数量提升的成本,加速Chiplet设计的创新。
虽然HPE、IBM和Nvidia等大厂并没出现在最初的创始名单当中,但最终他们也加入了UCIe联盟。
Balaji Baktha表示,其在与46家现有的和潜在的客户讨论Veyron V1和V2 CPU设计时,很明显,UCIe是小芯片互连的发展方向。因此,Ventana公司加快了Veyron V2的发布,其中包括大量的RISC-V核心增强,因为它采用了UCI Express而不是BoW进行小芯片互连。
以下是BoW、AIB 2.0和UCIe 1.1互连的比较,这是Lei Shan撰写的一篇论文的补充。Lei Shan曾在IBM TJ Watson研究中心从事互连硬件工作,现在在Arm服务器芯片新创公司Ampere Computing工作:
正如您所看到的,UCIe的数据速率是BoW的两倍,总线带宽可以相同或高出4倍。信道覆盖范围是UCIe距离的一半,但链路的功率效率提高了两倍,延迟不到BoW的一半,每毫米的带宽也高出35%到65%。
Balaji Baktha表示:如果芯片设计者想使用小芯片,他们必须支持UCIe。
UCIe背后有着巨大的推动力,因为每个人都想要一个统一的标准。BoW本可以成为这样一个标准的。但我们不想继续构建它,因为UCIe标准有效地解决了封装成本,并且正在以最佳水平实现。UCIe还解决了3D内存堆叠问题。
因此,利用UCIe很容易实现Express 2.0,并利用我们自己的专业知识弥合与UCIe 1.0之间的差距。例如,UCIe根本没有提供到AMBA CHI一致接口总线的链接。因此,我们在UCIe 2.0上添加了AMBA功能。
支持512位矢量扩展
Ventana希望迅速抓住,并将其纳入Veyron V2核心设计的另一个重大变化是RISC-V Vector 1.0 512位矢量扩展。
该扩展类似于英特尔至强Phi处理器从2015年开始提供的扩展,以及2017年在Skylake至强SP处理器中提供的扩展。
一年前,该扩展也刚刚被添加到AMDGenoaEpyc处理器中。这些512位矢量引擎实际上并不是英特尔AVX-512的克隆(就像AMD Genoa芯片中的那些至少在软件级别上),但它们足够接近,不会给想要将代码从X86移植到RISC-V的Linux开发人员带来一场软件噩梦。
此外,512位矢量扩展将为HPC和AI工作负载提供与X86和Arm处理器有竞争力的性能,在这些工作负载中,CPU将进行AI计算,而不是像GPU和其他加速器一样在CPU上或CPU外部使用加速器。
Ventana为VeyronV2核心添加了512位矢量扩展,使矢量引擎能够支持矩阵运算,并允许客户将自己的矩阵引擎添加到架构中,无论是在核心中还是在使用UCIe链路的离散小芯片中与之相邻。
顺便说一句,VeyronV1核心没有任何向量引擎或矩阵引擎扩展,这显然是一个问题,因为许多人工智能推理仍在CPU上进行,在某些情况下,人工智能训练和HPC模拟和建模也在CPU上完成。
全新的内核架构
Veyron V2设计的另一个重大变化是Ventana创建了一个显著改进的RISC-V内核架构。
通过在Veyron V2核心中更积极地融合指令处理并进行许多其他调整,Ventana已经能够将一揽子工作负载的每时钟指令(IPC)性能提高20%。
与3GHz主频的Veyron V1内核相比,Veyron V2主频也提高到了3.6 GHz,这将内核的性能再提高了20%,从而在Ventana的Veyron RISC-V CPU内核设计中,从V1内核到V2内核的整体性能提高了40%。
Veyron V2核心是基于台积电4nm工艺设计的,相比上代基于台积电5nm工艺的Veyron V1得到了进一步提升。
VeyronV2内核还支持RVA23体系结构配置文件,该配置文件强制使用512位矢量扩展。还有一些在矢量引擎上运行的加密函数。
Ventana的VeyronV2内核还支持RV64GC规范,并实现了一个超标量、无序流水线,每个时钟周期可以解码和调度多达15条指令。由于其IOMMU设计和高级中断体系结构(AIA),VeyronV2核心可以支持类型1和类型2的服务器虚拟化管理程序以及嵌套虚拟化。
Veyron V2核心还具有用于调试、跟踪和性能监控的端口。
以上所有这些都是现代超大规模数据中心服务器CPU所应有的能力。
V1和V2内核都没有同时的超线程,就像亚马逊云和Ampere Computing的Arm内核没有,未来Sierra ForestXeon SP处理器中使用的Siera Glen内核也没有。
另外,Veyron V2内核具有512 KB的L1指令缓存和128 KB的L1数据缓存以及1 MB的L2数据缓存。这些内核还有一个4MB的L3缓存,与之相关的是,在Veyron V2的小芯片复合体中的32个内核中,总共拥有128MB的L3缓存。
每个小芯片上的核心使用专有的片上网状网络相互连接,该互连为CPU核心、内存和其他I/O提供了高达5TB/秒的聚合带宽。
四个VeyronV2小芯片可以与UCIe互连,以创建一个128核的复合体,如果你真的想突破极限,你可以将最多六个小芯片连接在一起,获得192核。
以下是基于VeyronV2内核的CPU的概念图,它有一个I/O管芯和六个32核VeyronV2小芯片,以及一些特定于领域的加速器链接:
上图显示了I/O集线器与PCI Express 5.0控制器和DDR5内存控制器的链接,但如果Ventana公司愿意,可以换成HBM3内存控制器。
默认设计为六个VeyronV2小芯片上有十二个DDR5内存控制,四个VeyronV2小片上有八个,这与我们目前在任何服务器CPU中看到的配置是一样的。
性能超越AMDEpyc 9754
Ventana的VeyronV1发布之时,号称性能超越AMD EPYC 7763。那么Veyron V2的性能又能有多强呢?
以下是Ventana如何模拟Veyron V2的整数性能,以及每个插槽的原始SPECint2017性能:
按照Ventana公布的数据来看,一个192核的Veyron V2 RISC-V CPU的整数吞吐量将比AMDBergamo Epyc 9754处理器高23%,该处理器在相同的360瓦功率范围内有配备了128核和256线程;
同样,Veyron V2也比96核的AMDGenoa Epyc 9654高了34%左右;与56核的Intel Sapphire RapidsXeon SP 8480+相比,Veyron V2性能更是达到了其2.7倍。
这并不奇怪,因为VeyronV2有3.4倍的内核和1.7倍的线程,尽管VeyronV2内核必须以较低的时钟速度运行;
另外一款基于Arm Neoverse V2的64核产品似乎的是亚马逊云(AWS)Graviton3的替代品,拥有64核心,性能比IntelSapphire RapidsXeon SP 8480+芯略高,但是也仅为Veyron V2的一半不到。
支持DSA
Veyron V2还支持 DSA(面向某个特定的领域定制优化的设计),该功能允许客户向其 SoC 添加定制加速器芯片。
Lanier 表示,这是针对可能希望提高数据中心特定工作负载的超大规模客户,例如压缩和加密、网络中的 TCP 卸载处理或数据库中的键/值处理。这些加速器小芯片由 Veyron V2内核通过 Ventana 添加的自定义指令提供支持,这是整个 RISC-V 架构的一大卖点。
在这种情况下,自定义指令使软件能够调用加速器,这可以看作是英特尔处理器使用指令调用浮点单元 (FPU) 的方式的回响,当时其中一个是可选的单独的浮点单元 (FPU)。
△Ventana 可编程 DSA
总结来说,Ventana 的目标是让其客户设计使用这些 DSA 小芯片(无论是 FPGA 还是 ASIC)来提供更好的工作负载效率,而不仅仅是最大 SPECint 吞吐量。
安全性大幅提升
Veyron V2 的另一个特色是,支持全面的RAS,具有ECC能力、防数据中毒等。
如今,数据中心处理器还需要具有安全启动和身份验证能力。Veyron V2设计也能够更好地抵御侧信道攻击,例如Spectre 和 Meltdown缺陷,这些缺陷可能导致服务器内存中的数据被窃取。
不过,Lanier强调,这并不意味着Veyron V2芯片不可能被此类攻击,只是 V2 在设计时就了解了这些攻击的执行方式,可以在一定程度上进行预防。数据中心客户为受影响的服务器运行软件补丁或缓解措施的成本通常可能会降低 10% 甚至 20% 的性能。
2024年第三季度投入生产
Ventana还将提供基于Veyron V2的192 核 1U 服务器参考设计,有四个128核的小芯片和12通道的DDR5-5600内存,小芯片上有UCI Express互连,还有一个I/O接口,可以将它们放在服务器CPU插槽内。
据介绍,Veyron V2将于2024年第三季度投入生产,届时用于互连小芯片的UCIe 1.1 PHY有望上市。
编辑:芯智讯-浪客剑
资料来源:
https://www.theregister.com/2023/11/07/ventana_riscv_server/
https://www.servethehome.com/ventana-veyron-v2-risc-v-cpu-launched-for-the-dsa-future/
https://www.nextplatform.com/2023/11/07/ventana-launches-veyron-v2-risc-v-into-the-datacenter/