0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强悍的AWS Graviton4处理器及其背后的Arm Neoverse

Felix分析 来源:电子发烧友 作者:吴子鹏 2024-12-19 00:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/吴子鹏)在今年的亚马逊re:Invent 2024大会上,该公司正式对外发布了旗下第四代自研Arm芯片——Graviton4。作为目前最强大的Graviton处理器,Graviton4相较于上一代产品带来了巨大的性能提升。同时,为Graviton4赋能的Arm Neoverse也跟着受到了更多的关注。

强悍的Graviton4处理器

据介绍,Graviton4处理器每个核心都能提供比上代强30%的性能,vGPU数量和内存容量也是上一代的3倍,能将处理大型Java应用的速度提升45%,可以为企业提供更低成本和高效的高性能计算解决方案。

除了内核性能的提升,亚马逊还着重提升了Graviton4处理器的存储性能,首次创建了双插槽NUMA内存集群。Graviton4处理器配备了高达1.5 TB的DDR5主内存,运行频率为5.6 GHz,提供12个内存通道。与之相比,上一代Graviton 3处理器使用了4.8 GHz主频的DDR5内存,只有8个内存通道。并且,单个Graviton4处理器的内存插槽就可以提供537.6 GB/秒的带宽,能够轻松应对HPC负载。

此前,亚马逊针对Graviton4处理器发布过一些测试实例,通过这些实例体现了这颗处理器强大的性能。比如,基于Graviton4处理器构建UE5 Dedicated Server,据亚马逊的说法,最新的Graviton 4实例是迄今为止亚马逊为各种workload设计的最强大并且最高效节能的CPU。Graviton 4的实例R8g相较于Graviton 3的实例R7g有大约30%的性能提升。实例R8g压测使用Lyra Starter Game项目,通过增加AI Bot和GameClient的方式来增加Dedicated Server(简称DS)的负载,通过对比不同机型以及不同参数编译出的DS在server full的情况下的CPU使用率和帧率(FPS)来对比性能。

结果显示,Graviton 4的实例在UE Dedicated Server应用场景下:
·相较于Graviton 3有约 25+%的性价比提升(均使用优化参数编译);
·相较于Intel Sapphire Rapids和AMD Genoa有30%~35%的性价比提升;
·使用Graviton针对C/C++的优化参数来编译Dedicated Server对性能提升约10%~25%。

根据外媒的测试,在相同的vCPU数量下,新的Graviton4处理器内核大致与Intel Sapphire Rapids性能相当,同时能够与AMD EPYC“Genoa”相媲美,并始终表现出极佳的代际提升。这都离不开Arm Neoverse的赋能。

Graviton4 处理器背后的Arm Neoverse

Graviton4 处理器基于Arm Neoverse V2平台,这颗核心发布于2022年9月。Neoverse V2和Neoverse E2都是Arm公司内部代号“Demeter”项目下的产品,Arm Neoverse V2平台涵盖Armv9架构的新特性,包括高性能浮点和向量指令支持,以及SVE/SVE2、Bfloat16和INT8 MatMul等特性。这些特性为AI/机器学习 (ML) 以及高性能计算 (HPC) 工作负载提供了卓越性能。

根据Arm官方的介绍信息,得益于全面增强的核心性能、内存带宽和高达两倍的L2缓存大小(每核2MB),Neoverse V2可以在云和ML应用程序上提供两倍于Neoverse V1的性能。根据Arm工程团队实际运行EDA工作负载所得出的结果,Graviton4 提供的RTL仿真工作负载性能比Graviton3高出 37%。同时,Neoverse V2具有出色的平台扩展性,当与新的CMN-700核心网状网络配对时,Neoverse V2 CPU可以配置多达256个内核和512MB的系统级缓存(SLC)。AMBA CHI C2C使用UCIe、CXL、PCIe或自定义PHY来连接计算、内存和加速器,实现高效、高速的芯片连接。

看过Graviton4处理器的性能之后,人们对下一代Arm服务器会更加期待,这些产品将搭载最新的Neoverse V3。2024年2月,Arm宣布推出新一代 Arm Neoverse技术,Neoverse CSS V3则是V系列芯片IP的首款Neoverse CSS产品,单芯片性能可提高50%。官方的资料显示,全新的Neoverse CCS V3 核心基于64核的Neoverse V3 核心,拥有6个DDR5 内存控制器、4个 I/O 控制器和两个芯片间互连,并支持PCIe Gen5和CXL3.0。通过芯片间互联,可以升级至128核。相对于此前的 Neoverse CSS N2,其单芯片性能可提高50%。

除了核心的提升,Arm将继续投入并进一步强化软件生态系统,从而使开发者能够更加轻松地在 Arm平台上构建其应用,并充分利用 Arm计算平台所提供的卓越性能和效率优势。

结语

亚马逊Graviton4处理器是Arm处理器历史上的一次巨大成功,性能全面对标x86处理器当前的旗舰产品。在Graviton4处理器背后,Neoverse V2内核起到了巨大的赋能作用,这让产业界对于下一代基于Neoverse CCS V3 核心的Arm处理器更加期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20384

    浏览量

    255645
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MPLAB® ICE 2000处理器模块与设备适配器技术详解

    MPLAB® ICE 2000处理器模块与设备适配器技术详解 在嵌入式开发领域,调试工具的性能和功能对项目的成功至关重要。MPLAB ICE 2000作为一款强大的调试工具,其处理器模块和设备适配器
    的头像 发表于 04-07 14:45 386次阅读

    探秘Neuron® 5000处理器:LONWORKS控制网络的新利器

    探秘Neuron® 5000处理器:LONWORKS控制网络的新利器 在电子工程师的世界里,寻找高性能、低成本的解决方案一直是我们不懈追求的目标。今天,就让我们一起深入了解Neuron® 5000
    的头像 发表于 03-28 09:05 353次阅读

    ADSP-21593/21594/ADSP-SC592/SC594处理器:高性能与多功能的完美融合

    ADSP-21593/21594/ADSP-SC592/SC594处理器:高性能与多功能的完美融合 在当今的电子设计领域,对于高性能、多功能处理器的需求日益增长。ADSP-21593/21594
    的头像 发表于 03-23 16:50 753次阅读

    高性能音频处理利器:ADSP - 21477/ADSP - 21478/ADSP - 21479处理器深度解析

    高性能音频处理利器:ADSP - 21477/ADSP - 21478/ADSP - 21479处理器深度解析 在当今的电子技术领域,高性能音频处理一直是一个备受关注的方向。而ADI公司的ADSP
    的头像 发表于 03-23 16:45 838次阅读

    海光3350处理器能被广泛应用的原因

    集特海光3350工控主板GM7-5601配置了1颗海光3350处理器、8核16线程设计,2根DDR4内存插槽,最大支持64GB、4个千兆网口、板载网络控制、10个USB接口、10个C
    的头像 发表于 01-09 16:22 1106次阅读
    海光3350<b class='flag-5'>处理器</b>能被广泛应用的原因

    NVIDIA和AWS扩展全栈合作伙伴关系

    亚马逊云科技(AWS)将 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、GravitonAWS Nitro System。
    的头像 发表于 12-13 09:20 1183次阅读

    TDA4VL-Q1处理器技术文档总结

    TDA4VE TDA4AL TDA4VL 处理器系列基于进化的 Jacinto™ 7 架构,面向智能视觉相机应用,并建立在 TI 十多年来在视觉处理
    的头像 发表于 10-10 09:47 2314次阅读
    TDA<b class='flag-5'>4</b>VL-Q1<b class='flag-5'>处理器</b>技术文档总结

    TDA4AL-Q1处理器的技术文档摘要

    TDA4VE TDA4AL TDA4VL 处理器系列基于进化的 Jacinto™ 7 架构,面向智能视觉相机应用,并建立在 TI 十多年来在视觉处理
    的头像 发表于 10-10 09:40 2005次阅读
    TDA<b class='flag-5'>4</b>AL-Q1<b class='flag-5'>处理器</b>的技术文档摘要

    TDA4VH-Q1处理器技术文档总结

    TDA4VH-Q1 TDA4AH-Q1 TDA4VP-Q1 TDA4AP-Q1 处理器系列基于进化的 Jacinto™ 7 架构,面向 AD
    的头像 发表于 10-08 10:32 5367次阅读
    TDA<b class='flag-5'>4</b>VH-Q1<b class='flag-5'>处理器</b>技术文档总结

    TDA4VP-Q1处理器技术文档总结

    TDA4VH-Q1 TDA4AH-Q1 TDA4VP-Q1 TDA4AP-Q1 处理器系列基于进化的 Jacinto™ 7 架构,面向 AD
    的头像 发表于 09-29 14:56 5164次阅读
    TDA<b class='flag-5'>4</b>VP-Q1<b class='flag-5'>处理器</b>技术文档总结

    亚马逊云科技在中国区域推出Amazon Graviton4实例 以自研芯片驱动企业算力升级

    Graviton4处理器的Amazon Elastic Compute Cloud(Amazon EC2)C8g、M8g和R8g实例,针对客户不同类型的工作负载进行优化。与Amazon Graviton3
    的头像 发表于 09-10 20:51 963次阅读

    Texas Instruments DRA821x Jacinto™ 64位处理器技术解析

    Texas Instruments DRA821x Jacinto™ 64位处理器基于ARM®v8架构,并为带有云连接性的网关系统进行了优化。片上系统 (SoC) 设计通过集成降低了系统级成本
    的头像 发表于 08-28 11:33 1387次阅读
    Texas Instruments DRA821x Jacinto™ 64位<b class='flag-5'>处理器</b>技术解析

    MT6765_MTK6765安卓核心板_Helio P35处理器简介/芯片功能资料

    MT6765是一款兼具高效能与多功能的智能芯片,采用主频高达2.3GHz的八核ARM Cortex-A53处理器,结合台积电12纳米FinFET制程工艺,提供出色的性能和低能耗表现。芯片内置频率达
    的头像 发表于 07-01 20:17 3196次阅读
    MT6765_MTK6765安卓核心板_Helio P35<b class='flag-5'>处理器</b>简介/芯片功能资料

    国产信创工业计算机海光3350处理器集特IPC-660工控机

    国产信创新标杆:集特IPC-660工控机搭载海光3350赋能工业自主化在工业4.0与信创国产化双轨并行的时代,海光3350处理器凭借自主可控的x86架构与工业级高性能,正成为关键基础设施的核心算力
    的头像 发表于 06-24 15:32 3418次阅读
    国产信创工业计算机海光3350<b class='flag-5'>处理器</b>集特IPC-660工控机

    基于RK3576处理器,EASY EAI Orin Nano开发板免费试用

    EASY EAI Orin Nano是广州灵眸科技有限公司的旗舰级硬件产品。基于瑞芯微的RK3576处理器设计,集成了4个Cortex-A72和4个Cortex-A53及支持NEON指令集,支持
    的头像 发表于 06-09 15:01 1792次阅读
    基于RK3576<b class='flag-5'>处理器</b>,EASY EAI Orin Nano开发板免费试用