0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从AI手机到AI PC,Arm拿什么打造AI盛宴?

晶芯观察 来源:电子发烧友 作者:黄晶晶 2024-06-27 17:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/黄晶晶)去年,Arm基于Armv9.2架构推出了Cortex-X4内核,更早前还有Cortex-X3/2/1内核。今年,Arm推出了第二代Armv9.2 CPU 集群,其中包括Cortex- X925,这一次并没有延用单个数字,如Cortex-X5这样的命名方式。在最近包括电子发烧友在内参与的Arm技术媒体分享日期间,Arm技术专家表示,Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU,Arm想以此来清楚呈现其与前代产品的不同。与此同时,Cortex-X925 CPU与Immortalis-G925 GPU进行命名上的统一,以表明这些是真正的旗舰高端 IP,也是Arm终端CSS的基石。

Arm 终端计算子系统 (CSS) 作为最新的Arm计算平台,首次在终端领域为Arm CPU和GPU交付物理实现。此举也将使构建基于 Arm 架构的解决方案变得更加简单,确保万无一失。

联发科将基于Arm Cortex- X925 CPU和 Arm Immortalis-G925 GPU推出新一代天玑9400手机SoC。同时, Arm 也在与生态系统合作伙伴紧密合作,计划推出面向AI PC的处理器。前不久,Arm CEO公开表示希望Arm在5年内拿下50%的Windows PC 市场。这一切都将基于Arm最新的CPU和GPU以及着眼于未来数年发展的CSS来实现。

一个平台助力3nm芯片量产、端侧AI:Arm终端计算子系统

AI时代,生产力应用需要高性能平台来为高分辨率屏幕提供高刷新率;高端游戏应用已经采用了计算复杂型技术,为用户带来视觉震撼的游戏体验;创意工作者正在不断开辟将手机用于专业摄影用例的无尽可能。这些用例需要强大的计算能力作为支撑,并且正在通过 AI 得到进一步增强。在终端设备上打造新一波具有突破性的端侧生成式 AI 体验,全新的计算平台能力必不可少。Arm最新推出的终端计算子系统(CSS) 聚焦于实现平台能力的重大飞跃,优先考虑了四个关键领域:突破性能边界以处理要求苛刻的安卓实际工作负载;针对生成式 AI 以及更广泛的 AI/ML 和计算机视觉工作负载提高性能;持续专注于实现两位数的系统能效提升;扩展平台以获得更高的性能点,满足新一代 AI PC 设备的需求(包括笔记本电脑和平板电脑)。
wKgaomZ9N-SAVe3LAAUiqts5XnU340.png

Arm终端CSS包括第二代 Armv9.2 CPU 集群,内含性能最强的 Arm Cortex-X — Cortex-X925 CPU 以及效率最高的 Cortex-A 核心——Cortex-A725 和更新后的 Cortex-A520 CPU,让三纳米工艺上的性能和效率达到全新水平。基于第五代 Arm GPU架构的全新GPU系列包括专为旗舰移动设备设计的 Arm Immortalis-G925,以及面向大众行业市场移动设备的 Arm Mali-G725和Mali-G625。

新的Arm终端CSS 物理实现面向超过3.6GHz的运行频率,并在先进的三纳米工艺上实现了一流的平台功耗、性能和面积 (PPA)。这些实现在多家代工厂可用,为合作伙伴提供更大的灵活性。适用于安卓系统的 CSS 参考软件栈搭配固定虚拟平台 (Fixed Virtual Platform, FVP),助力合作伙伴加速流片前的软件开发。

wKgaomZ9N-2AEyIHAAMwmW9Wgsg061.png


此外,全新 Arm Performance Studio 提供了全方位工具环境,帮助开发者简化开发流程,充分发挥 Arm 终端 CSS 的潜力。

Arm 终端事业部产品管理总监Steve Hopper详细解析了基于FPGA为终端CSS构建的内部参考平台上运行安卓软件栈的性能表现。他表示,作为Arm最快的安卓平台,终端CSS在基于 2+4+2(2个Cortex-X925 + 4个Cortex-A725 + 2个Cortex-A520)的CPU集群配置的表现来看,配置上包含第二个Cortex-X925是为了提高CSS 平台上重要用例的性能,如应用启动和 AI 性能。并且通过将 L3 缓存大小从 8MB 增加到 16MB,并在集群中所有核心之间共享,计算量大的工作负载实现进一步加速。

wKgaomZ9N_qAD1VDAAMKh7DB1NU972.png

相比去年基于FPGA的安卓旗舰配置实现,2+4+2 CPU 集群将应用启动提速约 33%。通过集群的升级,包括额外的 Cortex-X 核心,并将 L3 缓存增加到 16MB,性能提升了约10%。对于 AI 大语言模型 (LLM),测量到终端 CSS 平台上词元 (Token) 首次响应时间,结果显著提升46%和42%。

wKgaomZ9OAWAMfUwAAI9Ox31G4k313.png


Arm 终端 CSS同时致力于进一步推动移动端 LLM 性能的提升,使其成为端侧生成式 AI 体验的最佳平台。词元首次响应时间 (TTFT) 指标用以衡量生成首个响应词元的速度。通过终端 CSS、Cortex-X925 和 KleidiAI 技术,对于具有 3.8B 参数模型的 Phi-3 的 TTFT,实现46%的显著提升;而对于具有 8B 参数的更大模型 Llama 3,TTFT 性能提高了惊人的42%。

对于 Immortalis-G925,在17 个主流 AI 网络(使用 fp16 数据类型)上观察到 AI 推理速度平均提高了 36%。Cortex-X925 CPU的推理速度与上一代 Cortex-X4 相比提升59%。通过利用一颗额外的 Cortex-X925 CPU,在 17 个主流 AI 网络中 int8 和 fp16 数据类型的 AI 推理时间大幅提升了170%。

wKgaomZ9OA6AfchHAAKwlL0spIM134.png


可以说,作为一个可扩展平台,Arm 终端 CSS 为CPU 和 GPU 上的 AI 推理工作负载带来了显著的性能飞跃。这是硬件进步与 Arm Compute Library 优化相结合所产生的强大效果。

70%的第三方ML/AI应用运行在CPU

Arm Cortex-X系列自2020年推出以来主要聚焦于优化提高单线程性能。Cortex-X1到X4的迭代都是如此。今年推出的Cortex-X925 CPU设计更具创新性。

“要实现优异性能,并非只涉及单个因素,要综合考虑每时钟周期指令数 (IPC)、频率、编译器、操作系统 (OS)、封装等多个方面。因此,我们革新设计理念,通过协同设计IP与物理解决方案,不仅实现量产就绪,而且具备领先的性能、功耗和面积 (PPA) 表现。”Arm终端事业部高级产品经理Manish Pandey说道。

基于以上设计理念,Arm正在改变Cortex-X CPU性能的发展轨迹。具体来看Arm Cortex-X925,它是Arm推出的迄今为止速度最快、性能最强的CPU。

通过结合前沿的微架构功能、可配置性和先进的物理解决方案,Cortex-X性能表现得到大幅提升。Cortex-X925的单线程性能提升36%(这有赖于对缓存大小、先进的功耗与热管理技术,以及更新运行时Runtime选择上的进一步投入),AI 性能提高46%。

wKgZomZ9OBqAff0VAAVNNNE3qgo548.png


在先进的3nm工艺节点上Cortex-X925实现3.8GHz运行频率,使得下一代设备的 Geekbench得分提高30%以上。

Cortex-X925核心对端侧AI能力的提升显著,该核心优化AI的响应速度、网页浏览、图像和视频,以及更出色的高帧率游戏体验等。

在大语言模型 (LLM) 上,词元 (Token) 首次响应时间缩短约40%,同时在热门的 AI 网络中,推理速度提升高达 35%。这还只是ISO配置提升,再计入额外的缓存投入和工艺节点迁移提供的更高频率,能让设备实现更加出色的性能。

在功耗改进方面,在DVFS曲线的操作点上端,Cortex-X925在关键时刻达到峰值性能,这表现在设备响应速度显著提升。在操作点的中段范围内,Cortex-X925在给定的功耗范围内提升了性能,也就是在功耗和热设计受限的设备中能够实现更多功能。此外,在固定的计算需求下,Cortex-X925 降低了功耗,有助于延长电池续航时间。

Cortex-A700所对应的产品系列已经发展了14代,整个团队过去曾开发Cortex-A9(大约20年前的首个乱序执行 CPU)和 Cortex-A73(迄今出货量最高的乱序执行CPU)。现在,这个团队全面专注于 Cortex-A700 系列的性能效率。

今年推出的Arm Cortex-A725,在性能效率设计上主要是满足持续的AI和游戏体验,以及为这条产品线在三纳米工艺上实现最佳的物理解决方案。Cortex-A725与去年的产品相比,能效提高25%。AI是高度线程化的,可以非常有效地在多核上运行更多的计算。通过提升25%的能效,可为整个核心提供余量。

wKgZomZ9OCSABTd4AAHA_L2ILXA906.png


Cortex-A520也做了更新。针对三纳米工艺的实现,对于Cortex-A520 来说同样比较复杂。通过更新实现流程,并与专用集成电路 (ASIC)/芯片团队紧密合作,以确保在保持微架构不变的情况下,Arm为合作伙伴提供最佳的三纳米工艺解决方案。

wKgaomZ9OC2AJFdiAAJRoJG3Xgc563.png

依据不同的终端应用,Cortex-X925、Cortex-A725、Cortex-A520这几个核在设计时可进行组合。DSU就起到将CPU IP高效协同的集群作用,同时DSU具有可扩展性。DSU作为一款特别的IP,它的性能指标包括缓存大小、带宽、延迟、漏电和动态功耗。今年,DSU-120 针对多个新用例进行了重点更新,聚焦在 PPA 和功耗方面的改善。

例如,机器学习 (ML)/AAA 游戏等用例对于缓存大小和缓存吞吐量较为敏感。而 AI 智能摄像头等用例则对缓存大小敏感度低,但对内存延迟更为敏感。而低强度线程的工作负载则对漏电比较敏感。DSU可以通过单个实现,达到动态应对不同用例的效果。

今年Arm在DSU中推出半切片断电模式 (Half Slice Powerdown),还为面向 RAM 新增了Quick Nap (QNap) 模式,QNap 模式是介于RAM运作 (Functional) 模式和保留 (Retention) 模式之间,可在不影响性能的前提下有效降低漏电。

Arm 终端事业部产品管理总监 Steve Hopper表示,由于CPU的易访问性,其通常是运行AI工作负载的首选目标,以安卓平台来看,目前70%的第三方 ML/AI 应用运行在CPU上。未来,在高端设备中 CPU、GPU和NPU三者相辅相成。但对于一些较低级别的设备来说,厂商可能很难承担NPU的费用,因此,CPU 往往是一个很好的运行此类工作负载的选择。

GPU:游戏与AI/ML兼得

Arm Immortalis-G925是Arm目前性能最强、效率最高的GPU,也是Arm终端计算子系统 (CSS) 的组成部分。

与Immortalis-G720相比,Arm终端CSS参考平台中的 Immortalis-G925在各种图形应用中的性能提高了37%;在运行AI/ML网络方面,性能显著提高了 36%。在提供与2023年参考平台相当的游戏性能时,Arm终端CSS中的 Immortalis-G925 能节省高达 30% 的功耗;而在对复杂对象进行光线追踪,其性能提升高达 52%。

安谋科技 (Arm China) 市场总监王刚分析,Immortalis-G925主要关注三个方面:实际环境中的游戏性能、AI/ML 性能,以及与生态合作伙伴的紧密协作。

在游戏性能方面,主流手游运行在采用 Immortalis-G925的Arm 终端 CSS 参考平台时,与去年的解决方案相比,性能平均提升了46%。以米哈游的《原神》为例,Arm 终端 CSS 使其性能提高49%。由腾讯光子工作室群和 KRAFTON 公司联合开发的《绝地求生手游》运行速度提升36%,《Roblox》更是大幅提升46%。此外,其他热门手游的性能也提升29% 到72%。这种代际的性能飞跃令人惊叹,对开发者和最终玩家来说具有重大意义。

前面提到许多AI运行在CPU上,但对于某些工作负载,如图像分割或物体检测,ML很适合在GPU上运行。Arm 持续提升GPU对 AI/ML 性能和效率的支持。

在图像处理(如分割或分类)方面,与去年的全面计算解决方案 (TCS) 相比,采用 Immortalis-G925的Arm 终端 CSS性能显著提升41%。在超级采样任务中,使用神经网络放大图像时,性能提升将近30%;在自然语言处理和语音转文本方面,获得50%性能提升。
wKgaomZ9ODqAZCC2AAePUVS7UTc494.png            

现代手游愈发复杂,不仅在于着色器的复杂度,场景中的几何图形数量也呈爆炸式增长。过度绘制是场景中模糊不清的重叠像素数量,即在最终图像中实际不会看见的部分。Arm GPU具备多种技术以减少过度绘制,进而减少到达片段着色阶段的原语数量。

此前为了有助于从 GPU 上获得更好的性能,一些应用可能会从前向后对不透明对象进行排序,这会增加CPU负载。Immortalis-G925引入了片段预处理 (Fragment Prepass) 的新机制,使得应用无需进行任何对象或原语排序。由于无需对象排序,渲染线程周期缩短了高达 43%。此外,片段预处理还可以更高效地减少过度绘制,进而提高性能和能效,同时减少应用的 CPU负载。

Immortatis-G925还改进了光线追踪技术。在保持视觉准确性的同时,性能提高27%。开发者也可选择稍微降低场景处理中的透明度准确性,由此可带来 52% 的性能提升,并且降低 57% 的内存访问,进而能够大幅降低功耗。

Immortalis-G925 所支持的着色器核心数量增加50%,达到24个核心的最大配置,而上一代最多只有16个。为了实现这一性能目标,并确保能够支持所有着色器核心,Tiler 和命令流前端 (Command Stream Front-end, CSF) 等顶级单元都经过了调整和优化,以充分发挥 GPU 的性能。
wKgZomZ9OESABTXCABCfASEMR44328.png


Immortalis-G925具备硬件光线追踪,可配置10个以上的核心,适用于旗舰智能手机等设备。面向高端手机市场推出Mali-G725,可在6至9个核心之间扩展。此外,它还能提供与旗舰产品相同的API支持,同时为其他级别设备提供引人入胜的游戏体验。而适用于智能手表和入门级移动设备的Mali-G625可在1至5个核心之间扩展,提供广泛的性能支持。

小结:

Arm CPU内核性能的提升从Cortex-X925这个产品开始进行了设计理念的改变,这将影响未来数年的内核设计。同样,Arm Immortalis-G925 GPU也实现了大幅提升。更重要的是当处理器进入3nm工艺制程时,Arm终端CSS的发布为客户的芯片从设计到量产提供全方位的支持。这背后的一个巨大动力自然是AI,更确切地说是Arm要引领端侧AI,这一次不仅是手机,还将有PC以及其他未来可能的智能终端。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393679
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302609
  • AI PC
    +关注

    关注

    0

    文章

    142

    浏览量

    745
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vibe Coding AI全栈开发实战

    整合 Vibe Coding AI全栈开发模式支持从前端后端、数据库API的全栈生成。开发者只需描述整体需求,AI就能自动生成完整的系
    发表于 04-15 16:02

    #哈萨比斯 2:棋盘AI宇宙 #AI

    AI
    江苏易安联
    发布于 :2026年04月14日 11:25:53

    AI辅助编程设计之道:SpecCode工程实践

    大语言模型正在重塑软件开发的日常。Copilot各种编程助手,AI生成代码的能力已经渗透许多开发者的工作流中。但在实际应用中,一个现象值得注意:不少团队在使用
    发表于 03-16 13:33

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    是救命稻草。当系统无法正常启动时,这是唯一的交互窗口。 四、软件生态与实测:“能用”“好用” 硬件只是躯壳,软件才是灵魂。AI Station选择了openEuler 22.03作为首发出厂系统
    发表于 03-10 14:19

    使用NORDIC AI的好处

    不依赖持续联网,整体系统可靠性更高。[Edge AI 概述; Nordic Edge AI 技术页] 覆盖“小 MCU”“高性能 SoC”的完整产品线 Neuton 模型 :超
    发表于 01-31 23:16

    纯4G?血版AI小智产品方案 #小智AI #AI方案商 #4G通话 #AI终端产品

    AI
    不太正经的攻城狮
    发布于 :2025年12月21日 14:36:55

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片AGI芯片

    AI大家都很了解了吧;AGI是什么呢? AGI:通用人工智能,可以再各个应用领域都具备AI的处理能力。 AGI可以组成能够24小时连续工作的优秀员工队伍,他们拥有比人类更强的能力和领导力,能够
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱动科学一起构成
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 2017年开始生成式AI
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:AI硬件AI湿件

    ,又分为真菌计算和基于DNA的计算。 图4 基本的真菌计算机结构 在用化学和生物方法实现AI功能的过程中,要经历5个阶段,见图5所示。 图5 以化学和生物方法实现AI功能各阶段 期待AI
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    提升AI智力 第4章 AI芯片:汇聚半导体芯片产业前沿技术 第5章 AI硬件AI湿件:用化学
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    在科技飞速发展的当下,AI 芯片已然成为众多行业变革的核心驱动力。互联网巨头的数据中心,到我们日常使用的智能手机、智能家居设备,AI 芯片的身影无处不在,深刻改变着产品形态与服务模式
    发表于 08-19 08:58

    【书籍评测活动NO.64】AI芯片,过去走向未来:《AI芯片:科技探索与AGI愿景》

    计算等类别AI芯片的及时、全面而富有远见的书。” 那么时至今日,这个世界发生了什么变化呢? 在这四年间,最重大的技术变革无疑就是大模型的横空出世,人类的时间仿佛被装上了加速器,ChatGPT
    发表于 07-28 13:54

    Arm 与微软合作,为基于 Arm 架构的 PC 和移动设备应用提供超强 AI 体验

    管理总监RonanNaughton微软AI框架首席软件工程经理GeorgeWu随着人工智能(AI)成为当今个人电脑(PC)和移动设备使用体验(聊天机器人
    的头像 发表于 06-03 16:47 994次阅读
    <b class='flag-5'>Arm</b> 与微软合作,为基于 <b class='flag-5'>Arm</b> 架构的 <b class='flag-5'>PC</b> 和移动设备应用提供超强 <b class='flag-5'>AI</b> 体验