0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度解析Neoverse V1对Arm的重要意义

电子设计 来源:ednchina 作者:邵乐峰 2021-05-19 17:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2018年10月,Arm首次宣布推出面向云到边缘基础设施产品Neoverse及其初步路线图,并承诺平台效能30%的年增长率指标将持续到2022年及以后。

根据Neoverse平台PPA设计原则,N系列强调性能、功率、面积得到同等考量,擅长可扩展;E系列主要关注效率,对于网络流量和数据应用程序非常有效,在功耗和面积的缩减上进行优化;V系列旨在提供最佳性能,需要添加更大的缓存、窗口和队列,相对来说会消耗更多面积和功耗。如果客户更看重线程需求,N系列就比较合适,假若客户需要高性能计算工作负载,V系列就能提供更大的价值,这完全取决于客户在功耗、性能、面积上的需求与配置。

o4YBAGCk3ZOAPvG9AASLiRlLuME833.png

图1:Neoverse平台PPA设计原则

最早的“Cosmos”平台基于16nm工艺,采用A72、A75核心,在当时公布的路线图中,Arm就提出了每年每代产品30%的性能提升目标。2019年初,N1和E1平台公布,相比“Cosmos”,N1单线程性能提升了60%,超出预期一倍,云端负载性能提升2.5倍;E1吞吐量性能提升超过2.7倍,吞吐效率提升超2.4倍,计算性能提升超2倍。

o4YBAGCk3a2AO4UsAALzs5EgJTc364.png

图2:2019年推出的N1平台相比“Cosmos”单线程性能提升了60%

图3和图4分别展示了N1的公开测试数据,以及基于传统架构的机架与基于ArmNeoverse机架的数据对比。可以看出,无论是在存储、移动还是计算数据领域,N1都表现出了优良的性能。而且在同为标准42U机架和12.5KW功率条件下,ArmNeoverse平台提供了更高的整数吞吐量和单线程性能,使得云服务商得以在单个机架上托管更多客户,从而带来更高收入和更多计算周期。

o4YBAGCk3b2AeAUwAAWGrtsfwPU699.png

图3:N1性能测试数据

o4YBAGCk3cuAWrf8AAT-9ItB8Dw789.png

图4:基于传统架构的机架与基于ArmNeoverse的机架对比

开启终极性能之路

两年后,也就是2020年9月,Neoverse家族宣布再度进阶,新增两个全新的平台—NeoverseV1平台以及第二代N系列平台NeoverseN2。日前,Arm基础设施事业部高级副总裁兼总经理ChrisBergey则公开了V1和N2平台的更多产品细节。

o4YBAGCk3dyATnOGAAcFEVg-Hug372.png

图5:ArmNeoverse平台路线图

NeoverseV1作为V系列的第一个平台,主要面向7nm和5nm工艺而设计,是Arm强调性能优先的新型计算系列的第一个平台。与N1相比,V1支持256位宽度的向量,带来了50%的性能提升、1.8倍的矢量工作负载优化、以及4倍的机器学习工作负载优化,适用于高性能计算、高性能云和机器学习处理等对CPU性能与带宽有更高要求的应用。

pIYBAGCk3fmAFQqUAAgGbV9ZFwo494.png

图6:NeoverseV1性能详述

值得一提的是,V1是Arm第一个支持可伸缩矢量扩展(ScalableVectorExtensions,SVE)的处理器平台。SVE可基于未知宽度向量单元的软件编程模型执行单指令流多数据流(SIMD)整数、bfloat16、浮点指令,从而确保软件编码的可移植性与使用寿命,并兼顾高效的执行。

pIYBAGCk3gmAAFn-AAQuFBvsTVQ012.png

图7:V1是Arm第一个支持SVE的处理器平台

开发者而言,SVE架构的好处在于能够帮助他们在寄存器宽度之间无缝转换,也就是说,开发者们既可以合并新的宽向量SVE指令,也可以重新使用为较小的寄存器编写的辅助函数。富士通A64FXCPU就是一个很好的例子,在执行SVE代码时,他们可以完全控制SVE电压和频率转换,确保其可以全天全频率运行。

Chris说,Arm现有的SIMD指令集NEON难以对某些代码进行矢量化处理,而SVE可以直接取用相同的代码,并很好地对其进行自动矢量化,相比于NEON,可提升将近3.5倍的处理速度。由于SVE与矢量长度无关,因此相同的代码可以不加修改地在V1上运行。另外,如果在V1上加倍SVE矢量的宽度,对应的处理速度也几乎提速一倍。

当然,SVE也为HPC提供了一种新的高性能且对开发者友好的编程功能。

今年4月,印度电子和信息技术部MeitY宣布其百万兆级高性能计算CPU设计将采用NeoverseV1平台,使之成为继法国芯片初创企业SiPearl和韩国电子通信研究所ETRI之后,第三家公开支持通过NeoverseV1驱动百万兆级高性能计算SoC的Arm合作伙伴。

除此之外,Chris还分享了其他合作伙伴在基础设施市场的最新进展,包括:

. Marvell发布了基于NeoverseN2的OCTEON系列网络解决方案,并预计于2021年底前试产。相较于前一代的OCTEON解决方案,其性能提升高达3倍。

. 甲骨文计划在Oracle云基础设施上采用AmpereAltraCPU,为各种工作负载提供最佳的性价比。

. 由Arm技术驱动的AWSGraviton2通过稳定的增长与区域扩展,正持续快速地扩张其EC2的覆盖。

. 阿里云在即将上线的基于Arm架构ECS实例上完成了测试,结果显示在SPECjbb的测试数据中获得了惊艳的表现,且基于Arm架构运行的DragonWellJDK性能提高了50%。

阿里巴巴首席工程师周经森(KingsumChow)称,公司现有的软件里会有两个考虑的点,一个是有些软件是需要重新编译的,另外一种不需要重新编译,只需要把Javaapplications在JVM(JavaVirtualMachine)上跑好就可以了。过去一年里,双方从JDK8到JDK11,通过OpenJDK,通过阿里巴巴Dragonwell(OpenJDK的一个发行版),就把现有一些Java应用的一些性能提高了50%。

. 腾讯在硬件测试和软件支持方面持续投入,使其在云应用上能采用ArmNeoverse技术。

腾讯专项测试技术中心总监黄闻欣(VictorHuang)表示,去年,腾讯和Arm正式签署了一份合作协议,希望通过合作加速ArmNeoverse技术的测评和适配。之后通过TencentBench测试框架发现,得益于更多可扩展的CPU核心数,Arm服务器比传统的服务器性能表现更强劲。非常值得一提的是,其在AI推理和图片处理领域优势非常明显。

“我们认为单核性能、功效以及对新SVE矢量扩展的支持是合作伙伴选择V1的主要原因。与富士通的A64FX一样,这些设计凸显了高性能计算SoC的发展趋势:即利用SVE、高带宽DDR5和HBM内存以及其他专用处理能力的整合,打造出百万兆级的CPU。”Chris说。

N2被定位为可提供更高性能计算的解决方案,用来满足横向扩展的性能需求,其用例可横跨云、智能网卡(SmartNIC)、企业网络到功耗受限的边缘设备。同时,N2也是第一个基于Armv9架构的平台,在安全性、能耗以及性能方面都有全面的提升。N2面向5nm工艺而设计,支持PCIe5.0和DDR5,通过支持用于高带宽存储器的HBM3以及用于结构的CCIX2.0和CXL2.0来进一步扩展。此外,相比于N1,N2在保持相同水平的功率和面积效率之余,单线程性能提升了40%,在云端上提升1.3倍的NGINX,在5G和边缘应用上提升1.2倍的DPDK数据包处理。

o4YBAGCk3heAelgIAAhV6hMQruM860.png

图8:NeoverseN2性能详述

5G无线接入网RAN是N2的一个典型应用。使用5G时,网络资源会被池化为射频单元RU、分布式单元DU和中央单元CU,对于每个单元而言,提供正确的计算以优化性能指标(例如在紧凑功率范围内的带宽和吞吐量)的能力至关重要。尽管网络上层日趋云端化,但下层却需要借助专用处理器和加速器来实现软件和硬件的正确组合。所以除了数据中心,随着网络虚拟化和容器化程度不断提高,加上安全性和存储等功能也被卸载以换取性能和效率,智能网卡或DPU在网络中正变得越来越重要。

NeoverseN2还是第一个具备SVE2功能的平台,该功能可为云到边缘的性能效率带来巨大的提升。在诸如机器学习、数字信号处理、多媒体和5G等广泛应用场景中,SVE2除了带来大幅性能提升外,还带来了SVE具备的编程简易性及可移植性等优势。

pIYBAGCk3iaADM1VAAaAHshDJjY372.png

图9:SVE2指令集

SVE和SVE2都属于与矢量长度无关的指令集,用户只需编写、编译一次代码,即可在各种多样的硬件上运行,同时还能充分利用可用的矢量带宽。但与SVE加速HPC相比,SVE2将应用场景扩展到ML、DSP、多媒体和5G等更广阔的市场,它融合了NEON丰富的数据操作、逻辑和算术指令集,以及SVE自动矢量化和可扩展性等功能。

下图中,X轴代表芯片级性能,Y轴代表每线程性能。可以看出,在128核/128线程下,N1在芯片级吞吐量和单线程性能方面都达到领先,N2性能更强,代表着最高单芯片性能;V1在96核96线程下拥有最高单线程性能,意味着可以在核心数更少的情况下发挥更好的性能。

pIYBAGCk3jaAGo-lAAb5Lr2krvg817.png

图10:NeoverseN1/N2/V1芯片级性能/单线程性能

除了处理器内核,Arm还为合作伙伴提供可扩展性的交换网,用以支持大量的处理器核。同时,针对加速器的缓存一致性互联(CCIX)与开放互联技术(CXL)的投资则可以确保其生态系统得以快速且高效地推出相关的技术。

基于CMN-600,ArmCMN-700Mesh互连技术在每个矢量上进一步提升了性能——从内核的数量和缓存的大小,到附加内存和IO设备的数量和类型。对于基于V1的HPC平台而言,支持高带宽DDR5和HBM内存系统至关重要,而CMN-700恰好可以实现这一点。

o4YBAGCk3kaAdhD-AAtBHcIJZXA724.png

图11:ArmCMN-700Mesh互连技术

CMN-700的另一个关注重点是对多芯片功能的助益,以便为数据中心资源池化的增长提供更多的定制选项。CMN-700中还增加了CXL功能,可为内存扩展和智能一致性加速器,构建主机或端点设备。

多芯片功能的另一项重要升级是,针对传统多插槽设计和新的芯片集或多芯片集成提高性能和优化功能,多芯片集成将为突破传统的硅掩模版限制提供新的机遇,并为紧密耦合的异构计算提供更大的灵活性。

打造“装机即用”的软件生态

软件生态方面,Arm通常将软件分为两种类型:一是云原生软件,二是传统企业级软件。

ChrisBergey说云原生软件是Arm一直以来相当重视的领域,拥有最大的持续集成/持续交付(CI/CD)平台,并在大多数编程语言的生态环境中扮演着核心角色。以AWSGraviton2为例,当前用户在Graviton2上部署的软件将有更多选择,云原生容器安全性、托管持续集成/持续交付、下一代防火墙也得到了持续更新,Graviton2也为Redis、Memcached、Elasticsearch等关键工作负载提供了性能优势。

pIYBAGCk3laAfqOzAAcqtbur6iw838.png

图12:AWSGraviton2性能优势明显

最近,Formula1就表示,相较于其他竞品,C6g和C6gn实例让他们的计算成本降低了40%。因此,Formula与Twitter、Snap、Lyft和Netflix等公司共同成为了Graviton2的用户,他们都通过Graviton2的使用,取得巨大的价格和性价比优势。

pIYBAGCk3m6ANronAAXuXOt9BIo829.png

图13:构建软件生态

在谈到边缘和物联网基础设施时,Chris认为“异构且多样化”正成为该领域最为显著的特征之一,但由于碎片化,它也可能在跨各种Arm平台上实现云原生堆栈的无缝托管时造成阻碍。

为了应对这一挑战,Arm在2019年推出了ProjectCassini项目,旨在确保在多样化且安全的边缘生态系统中提供云原生体验,并聚焦三个方向进行开展:平台标准和参考实施、边缘安全性以及云原生堆栈。Arm希望能够为软件开发者提供流畅的体验,通过标准、平台安全性与参考实施,让行业伙伴对在Arm平台上部署“装机即用”的软件充满信心。

o4YBAGCk3nuAWfvbAAa8WiQBhLA410.png

图14:ArmProjectCassini项目

为了凸显Cassini项目的成效,Arm以沃达丰的通用客户端设备uCPE概念验证作为示例:传统的客户端设备已部署为具有紧密耦合的专有硬件和软件的固定功能网络设备,而uCPE的设计用意,就是要通过将软件与硬件解耦,并在开放式商用硬件上运行现代云原生软件,以达到取而代之的目的。Arm与沃达丰及其他合作伙伴共同展示uCPE可以同时运行虚拟化和容器化的网络功能,并且与传统供应商相比可节省大量电力,这能让运营商降低成本、提高能效,并加快用于软件定义广域网SDWAN、防火墙和其他连接服务的网络设备性能。

而在传统企业软件领域,“软件即服务”(SaaS)正成为显著趋势。由于在Arm架构之上能够创造非常有利的软件即服务产品,因此很多独立软件开发商(ISV)开始对Arm表现出浓厚的兴趣,在中国市场尤其显著。目前,包括Xen、KVM、Docker容器以及越来越多的Kubernetes在内的基础软件都已经陆续宣布支持Arm架构,许多初期由Arm推动的开源项目正在变得自主运转。

编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388551
  • 物联网
    +关注

    关注

    2939

    文章

    47312

    浏览量

    407569
  • 5G
    5G
    +关注

    关注

    1366

    文章

    49064

    浏览量

    589926
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Arm Neoverse平台集成NVIDIA NVLink Fusion

    生态系统,实现全缓存一致性与高带宽互连。 随着 AI 数据中心对 Arm Neoverse 的需求持续增长,客户在将工作负载加速器连接至 Arm 平台时拥有更多选择。 人工智能 (AI) 正在重塑数据中心
    的头像 发表于 11-26 11:08 274次阅读

    工业互联网的重要意义

    工业互联网作为新一代信息技术与制造业深度融合的产物,通过人、机、物的全面互联,构建起覆盖全产业链、全价值链的智能化服务体系。其重要意义体现在经济、产业、社会和技术四个维度,是推动全球制造业转型升级
    的头像 发表于 11-20 09:45 162次阅读

    西门子 Veloce CS 助力 Arm Neoverse 计算子系统验证与确认

    西门子数字化工业软件近日宣布,Veloce Strato CS 与Veloce proFPGA CS 已被 Veloce 的长期合作伙伴 Arm 部署应用,作为Arm Neoverse 计算
    的头像 发表于 08-06 09:26 2519次阅读

    论高速电主轴动平衡检测的重要意义

    高速电主轴作为高端加工设备的“心脏”,其动平衡状态直接决定了加工系统的性能与稳定性,在工业生产中具有不可替代的重要意义。一、保障加工精度,提升产品质量​在精密加工领域,哪怕是微小的振动都可能导致加工
    的头像 发表于 08-04 10:06 570次阅读
    论高速电主轴动平衡检测的<b class='flag-5'>重要意义</b>

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    颇具优势。Arm 携手合作伙伴,在 Arm Neoverse N2 平台上使用开源推理框架 llama.cpp 实现 DeepSeek-R1 满血版的部署,目前已可提供线上服务。
    的头像 发表于 07-03 14:37 979次阅读
    <b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> N2平台实现DeepSeek-R<b class='flag-5'>1</b>满血版部署

    数据服务器与数据中心需求激增——精确功率测量的重要意义

    本文深度解析数据中心爆发式增长下的能效管理难题,详解ZES ZIMMER LMG600系列功率分析仪在服务器电源测试(80 PLUS钛金认证)、SPECpower基准评估、高效变压器损耗测量等关键场景的应用,提供从组件级到系统级的全栈式能效合规解决方案。
    的头像 发表于 06-27 14:22 506次阅读

    音诺恒 全志A133收银机POS机主板规格书-V1

    音诺恒全志A133收银机POS机主板规格书-V1
    发表于 06-11 18:09 0次下载

    Arm 公司面向 PC 市场的 ​Arm Niva​ 深度解读

    面向 PC 市场的 ​ Arm Niva ​ 深度解读 ​ Arm Niva ​ 是 Arm 公司为 PC 市场推出的核心计算平台,属于其“平台优先”战略的关键布局。作为 ​
    的头像 发表于 05-29 09:56 1301次阅读

    SFD01 跌倒检测模块 V1规格书

    SFD01跌倒检测模块V1规格书
    发表于 05-21 17:42 0次下载

    解读基于Arm Neoverse V2平台的Google Axion处理器

    云计算需求在人工智能 (AI) 时代的爆发式增长,推动了开发者寻求性能优化且高能效的解决方案,以降低总体拥有成本 (TCO)。Arm 致力于通过 Arm Neoverse 平台满足不断变化的需求,
    的头像 发表于 04-21 13:47 883次阅读

    如何在基于Arm Neoverse平台的CPU上构建分布式Kubernetes集群

    在本文中,我们将以 X(原 Twitter)为例,演示如何在基于 Arm Neoverse 平台的 CPU 上构建分布式 Kubernetes 集群,以根据推文实时监控情绪变化。如此一来,你可以充分利用 Arm
    的头像 发表于 03-25 15:58 635次阅读
    如何在基于<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b>平台的CPU上构建分布式Kubernetes集群

    WTN6 F系列语音芯片使用说明书V1

    WTN6F系列语音芯片使用说明书V1
    发表于 03-06 11:00 0次下载

    WTN6系列语音芯片使用说明书V1

    WTN6系列语音芯片使用说明书V1
    发表于 03-06 10:59 0次下载

    WTVxxxx系列语音芯片UART通信说明书V1

    WTVxxxx系列语音芯片UART通信说明书V1
    发表于 03-06 08:26 0次下载

    轮毂气密性检测设备在汽车制造中的重要意义

    整体性能具有重要意义。轮毂气密性检测设备能够精准地检测出轮毂是否存在漏气问题。在车辆行驶过程中,如果轮毂存在漏气现象,不仅会导致轮胎气压不足,影响行车稳定性和乘坐舒
    的头像 发表于 12-09 13:48 712次阅读
    轮毂气密性检测设备在汽车制造中的<b class='flag-5'>重要意义</b>