0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm Cortex-A320 CPU助力嵌入式设备实现高能效AI计算

Arm社区 来源:Arm社区 2025-02-27 17:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 物联网事业部产品管理总监 Tim Menasveta

Arm Cortex-A320 是目前最小型的 Armv9-A 架构 CPU。得益于该处理器的推出,开发者现在能有更多选择决定如何处理物联网边缘人工智能 (AI) 工作负载。然而,面对多样化的选择,要确定适合特定 AI 应用的处理器,系统开发者需要通过比较基于 Arm Cortex-A、Arm Cortex-M 和 Arm Ethos-U NPU 的设备及其可能的搭配进行决策。除了成本的考量,开发者还需了解各款处理器具备的 AI 功能,以及自身的项目可以通过何种软件开发流程实现简化。

嵌入式设备中实现高能效 AI 计算

近年来,嵌入式设备中的 AI 计算效率突飞猛进。Arm 的 M 和 A 处理器架构的提升使得每单位能耗的机器学习 (ML) 推理性能呈数倍增长。特别是在 M 处理器架构上,基于 Armv8.1-M 架构的 Cortex-M52、Cortex-M55 和 Cortex-M85 CPU 集成了可编程的 Helium 向量扩展,从而解锁了在微控制器级设备上实现新 AI 用例的能力。此外,得益于可伸缩向量扩展 (SVE2) 的引入,基于 Armv9 架构的 Cortex-A 处理器(如最新推出的 Cortex-A320)相较其前代产品进一步提升了 AI 性能。而 Ethos-U 系列 NPU 的最新一代产品 Ethos-U85,尤其在处理 Transformer 网络时,表现更为高效。

如何选择合适的硬件?

每种架构在不同方面各有优势。在考虑哪款硬件最适合时,原始性能应与设计灵活性相权衡。此外,还需要将包括 CI/CD 要求在内的软件开发流程纳入考量。

性能

满足所需的 AI 处理性能至关重要。Cortex-A 处理器本就是一款面向多种应用的可编程处理器,集成了 Neon/SVE2 向量引擎,旨在加速神经网络和各种向量化代码,并能原生支持多种数据类型。而带有 Helium 向量引擎的 Cortex-M 处理器具备相同特性,且更适用于成本和能耗相对有限的目标用例。相比之下,包含 Ethos-U85 在内的 Ethos-U NPU 则专为处理神经网络算子而设计,尤其还具备了量化的 8 位整数数据权重的能力,对于可以映射到这些 NPU 硬件的网络算子,其任务表现十分高效。

基于 Armv9 架构的最新一代 Cortex-A CPU 支持 BF16 等广泛的数据类型。此外,引入的新矩阵乘法指令显著提高了神经网络的处理性能。关于如何通过 SVE2 实现矩阵乘法的详细解释,推荐阅读《Neon、SVE 和 SME 实现矩阵-矩阵乘法的比较》。

Cortex-M55 是首款集成 Helium 向量技术的 Cortex-M 处理器,此后推出的 Cortex-M85 也集成了这一技术。两者都实现了双节拍 (dual-beat) Helium 配置,每个时钟周期可执行多达八次的 8 位整数乘积累加运算 (MAC) 操作。此外,Helium 还原生支持 FP16、FP32 等其他数据类型。

最后,在具有量化数据类型的模型上,具体来说是 INT8 权重,以及 INT8 或 INT16 激活数据,Ethos-U NPU 可以非常高效地处理神经网络。这种设计虽会限制其适用的数据类型,但可提高 NPU 的执行效率。

评估处理器在实际 AI 工作负载中性能的方法之一,是分析其每种数据类型和每个时钟周期的理论 MAC 执行能力。由于神经网络处理使用大型数据集,因此内存访问性能是另一大关键因素。不过在本例中,我们着重于处理器密集 (processor-bound) 性能,而非内存密集 (memory-bound) 性能。

神经网络处理速率通常受限于底层硬件的 MAC 操作速率。虽然实际的网络处理性能因网络结构而异,但下表所示的的理论 MAC 处理速率提供了硬件能力的指标。

921337dc-f4ba-11ef-9310-92fbcf53809c.png

软件

另外一个考虑的因素是每个硬件方案的软件支持。Arm 为包括 Cortex-A、Cortex-M 和 Ethos-U 等在内的各类 AI 硬件解决方案提供全面的开源运行时支持软件。Arm 为各种 ML 框架和运行时提供硬件加速支持,包括 PyTorch、ExecuTorch、Llama.cpp、TensorFlow 和 LiteRT(通过 XNNPACK)。任何 ML 框架都可通过优化,进而充分利用 Arm 的 AI 特性。在 Arm 处理器上执行的运行时可利用 CMSIS-NN(针对 Cortex-M/Helium)和 Arm Compute Library 或 Arm KleidiAI(针对 Neon/SVE2 中的 INT8 和 BF16)等软件加速库。Vela 编译器是一个通过优化模型来实现高效部署的离线工具,可在 Ethos-U 上进一步调优可执行二进制文件,从而实现更卓越的硬件性能。

何时使用 Ethos-U?

一些具有明确定义的 AI 工作负载的边缘 AI 用例可以通过将神经网络处理卸载到专用 NPU 上,从而释放主处理器的计算密集型任务,并由此获益。如前所述,Ethos-U NPU 在处理具有量化的 8 位整数权重的神经网络时非常高效。Transformer 网络特别适合在 Ethos-U85 上运行。然而,Ethos-U85 NPU 需由一个主处理器(可以是 Cortex-M 或 Cortex-A)进行驱动。

主处理器与 Ethos-U 间可以有多种配置方式。Ethos-U 可由像 Cortex-M55 等启用 Helium 的 Cortex-M 处理器驱动使用。目前市面上已有这种系统级芯片 (SoC) 配置的示例。近期,在小语言模型 (SLM) 上运行生成式 AI 工作负载愈发受到业界关注。Ethos-U 与启用 Helium 的 Cortex-M 处理器相结合,是此类用例的上佳之选。

此外,还有基于 Cortex-A 处理器的 SoC 集成了基于 Cortex-M 核心的 ML 岛与 Ethos-U。这类 SoC 通常适合运行 Linux 等功能丰富的操作系统,并支持更大、更灵活的内存系统。Cortex-M CPU 拥有 32 位可寻址内存地址空间,能实现直接内存地址映射,而像 Cortex-A320 等更新款的 Cortex-A 处理器则具有 40 位内存可寻址空间,还可以通过内存管理单元 (MMU) 的虚拟内存寻址。

随着大语言模型 (LLM) 的执行逐渐转向边缘 AI 设备,拥有更大和更灵活的内存系统可以简化较大参数规模(例如大于 10 亿参数的 LLM)模型的执行。Cortex-M 和 Ethos-U85 的组合很适合于越来越受到欢迎的小语言模型。Cortex-M 处理器具有 4GB 的寻址空间,并保留了其中一些空间用于系统功能。随着 LLM 模型规模的增长,具有更大和更灵活内存的 Cortex-A 系统将变得至关重要。

Arm 近期又宣布了另一种配置方式,称为“直接驱动 (direct drive)”,即 Cortex-A 处理器直接驱动 Ethos-U NPU。这种配置无需专门的 Cortex-M 作为“驱动”处理器。Ethos-U85 的 Linux 驱动程序可在 Cortex-A 主控制器上运行。

9242db86-f4ba-11ef-9310-92fbcf53809c.png

利用 Cortex-A320满足边缘设备的生成式 AI 需求

边缘 AI 系统开发者现在有更多的选择来优化物联网中最靠近边缘侧的 AI。无论选择 Cortex-M、Cortex-A 还是 Ethos-U 加速系统,每种选择都可满足不同的需求。Cortex-A320 处理器能够直接驱动 Ethos-U85,这让设计人员获得了更多的灵活性。作为 Arm 最小型、最高能效的 Armv9-A 处理器,Cortex-A320 在提高边缘侧 AI 能效的同时,适应嵌入式系统中生成式 AI 演进的需求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20149

    浏览量

    247182
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9499

    浏览量

    388734
  • AI
    AI
    +关注

    关注

    89

    文章

    38120

    浏览量

    296661
  • 嵌入式设备
    +关注

    关注

    0

    文章

    118

    浏览量

    17648

原文标题:如何为 AI 应用选择合适的 Arm 边缘 AI 解决方案?

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Arm 推出 Armv9 边缘 AI 计算平台,以超高能与先进 AI 能力赋能物联网革新

    架构的超高能 CPU——Arm Cortex-A320 以及对 Transformer 网络具有原生支持的 Ethos-U85
    的头像 发表于 03-06 11:43 1780次阅读
    <b class='flag-5'>Arm</b> 推出 Armv9 边缘 <b class='flag-5'>AI</b> <b class='flag-5'>计算</b>平台,以超<b class='flag-5'>高能</b><b class='flag-5'>效</b>与先进 <b class='flag-5'>AI</b> 能力赋能物联网革新

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布,为 AI 计算嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用
    发表于 03-19 17:54

    Firefly支持AI引擎Tengine,性能提升,轻松搭建AI计算框架

    `Tengine 是OPEN AI LAB 为嵌入式设备开发的一个轻量级、高性能并且模块化的引擎。基于ARM平台高效的计算
    发表于 08-13 15:58

    嵌入式ARM的体系与内核

    嵌入式系统已经广泛地应用到当今各个领域,小到掌上的数字产品,大到汽车、航天飞机。除了我们能联想到的单片机外,还有ARM等其他嵌入式系统应用的也越来越广泛。特点:由8位处理向32位过渡,由单核向多核
    发表于 05-18 14:36

    嵌入式AI平台有哪些?

    11.2.2 修剪神经网络 21.2.3 嵌入式终端优化 21.3 GPU 21.4 ARM 31.5 FPGA结构的并行计算 41.5.1 介绍 41.5.2 流水线计算 41.5
    发表于 10-27 06:45

    ARM推出全新超高能Cortex-A32处理器,扩大嵌入式与物联网产品阵容

     2016年2月24日,北京讯——ARM针对下一代嵌入式产品推出ARM® Cortex®-A32,为超
    发表于 02-24 09:37 1586次阅读

    基于ARM Cortex_A8的嵌入式Linux开发的平台构建

    基于ARM Cortex_A8的嵌入式Linux开发的平台构建
    发表于 09-25 13:45 15次下载
    基于<b class='flag-5'>ARM</b> <b class='flag-5'>Cortex_A</b>8的<b class='flag-5'>嵌入式</b>Linux开发的平台构建

    ARM仿真器与嵌入式系统设计讲解

    嵌入式系统,有些嵌入式系统还包含操作系统, 但大多数嵌入式系统都是是由单个程序实现整个控制逻辑。 所谓ARM仿真器,即用于调试基于
    发表于 10-18 13:24 1次下载

    arm_cortex_m3_嵌入式_交大_PPT

    arm_cortex_m3_嵌入式_交大_PPT
    发表于 10-26 09:36 21次下载
    <b class='flag-5'>arm_cortex</b>_m3_<b class='flag-5'>嵌入式</b>_交大_PPT

    使用ARM核设计实现嵌入式CPU的AHB接口说明

    本文分析了基于芯核的嵌入式CPU 设计的特点,提出了设计基于ARM 核的嵌入式CPU内AHB 接口存在的空洞问题。结合体系的设计,给出了通过
    发表于 10-18 16:13 3次下载
    使用<b class='flag-5'>ARM</b>核设计<b class='flag-5'>实现</b><b class='flag-5'>嵌入式</b><b class='flag-5'>CPU</b>的AHB接口说明

    arm嵌入式主板的优缺点

    嵌入式主板是嵌入设备里面做控制、数据处理使用的CPU板 ,常见的有两类,即基于X86的嵌入式主板和基于RISC的
    发表于 07-17 11:17 7501次阅读

    Arm发布新的Cortex-A78C CPU,预计将为移动设备供电

    Arm于去年五月宣布了将为下一代移动和嵌入式处理器提供动力的技术。其中包括Cortex-A78 CPU和匹配的Mali-G78 GPU。这些可能主要用于移动
    的头像 发表于 11-05 15:41 2292次阅读

    ARM_Cortex-A8嵌入式原理与系统设计.pdf

    ARM_Cortex-A8嵌入式原理与系统设计.pdf
    发表于 02-08 15:07 14次下载

    ARM Cortex-A53嵌入式开发平台Android手册

    电子发烧友网站提供《ARM Cortex-A53嵌入式开发平台Android手册.pdf》资料免费下载
    发表于 04-28 15:10 1次下载

    详解Arm Cortex-A320 CPU的特性

    Arm Cortex-A320 CPU 的推出具有重要的里程碑意义。作为首个基于 Armv9 架构的超高能
    的头像 发表于 02-27 17:13 1483次阅读