0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm发布基于Armv9架构的Cortex-A320处理器

Arm社区 来源:Arm社区 2025-02-27 17:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 物联网事业部高级产品经理 Dimosthenis Rossidis

在当前持续演进的物联网 (IoT) 环境中,软件复杂性不断增加,边缘设备因而需要更胜以往的性能、能效和安全性。Arm Cortex-A 系列产品通过为功率有限的设备带来先进的计算功能,进而满足这一需求,并为多样化的市场提供增强的人工智能 (AI) 处理能力、强大的安全性和优化的能效。Cortex-A3xx 系列专为包括消费类电子设备和云服务等在内的各种细分市场提供超高能效解决方案和优化的性能。更重要的是,该系列 CPU 为快速增长的高度多样化物联网市场提供了性能强劲且可扩展的解决方案,使其成为边缘 AI 应用的理想之选。

边缘 AI 需要更卓越的计算性能、更强大的安全性,以及更出色的软件灵活性。随着软件愈发复杂化,Armv9 架构应运而生,以提供先进的机器学习 (ML) 和 AI 功能,并具备增强的安全特性。该架构现已在 Cortex-A3xx 的超高能效系列实现,为新一代边缘 AI 应用夯实根基。

Cortex-A320:最小型的 Armv9 架构实现

Arm 今日发布的 Cortex-A320 是首款基于 Armv9 架构的超高能效 Cortex-A 处理器。这是一款基于 Armv9.2-A 架构的 AArch64 CPU。其微架构源自 Cortex-A520,并经过显著优化,以改善面积和功耗。

Cortex-A320 的能效相较 Cortex-A520 提高了 50% 以上。这一提升是通过多次微架构的更新而实现,其中包括窄取和解码数据路径、密集存储的 L1 缓存、缩减端口的整数寄存器文件等优化。

得益于高能效的分支预测器和预取器,以及内存系统的提升等微架构上的显著创新,Cortex-A320 在 SPECINT2K6 基准测试中的标量性能相比其前代产品 Cortex-A35 提升了 30% 以上。

更重要的是,通过集成增强的Armv9 的 Neon 和 SVE2 向量处理技术,在 INT8 通用矩阵乘法 (GEMM) 中测得 Cortex-A320 的 ML 处理能力比 Cortex-A35 高出至多 10 倍。此外,通过对 BF16 等新的数据类型、新的点积和矩阵乘法指令的支持,Cortex-A320 的 ML 性能比目前全球最受欢迎的 Armv8-A CPU Cortex-A53 高出至多六倍。

Cortex-A320 在 ML 能力的大幅提升,以及极高的面积能效比,使其在 ML 应用中成为最高能效的 Cortex-A CPU 核心。

与 Arm Cortex-M 处理器相比,Cortex-A320 的 ML 性能同样提高了数倍。例如,在 GEMM 性能方面,Cortex-A320 相较目前性能最高的 Cortex-M CPU (Cortex-M85) 提高了八倍。这种性能提升不仅归功于 Armv9 架构在 AI 处理上的增强,还源于 Cortex-A320 内存访问性能的大幅提高和频率的增加。

与此同时,得益于 Arm 的 A 处理器架构、多核执行,以及灵活的内存管理,这使 Cotex-A320 成为 Cortex-M 系列微处理器进行性能升级的合适选项。

通过微架构优化,实现更高能效

Cortex-A320 是一款单发射、32 位指令取指的有序执行 CPU,实现了优化的八级管线,且具有紧凑的转发网络,从而达到比 Cortex-A520 更高的频点。

Cortex-A320 提供从单核到四核配置的集群内扩展。该 CPU 所采用的简化 DynamIQ Shared Unit (DSU) DSU-120T,可支持仅使用 Cortex-A320 的集群。DSU-120T 是最小的 DSU 实现,能够显著降低复杂性、面积和功耗,进而大幅提升基于 Cortex-A 的入门系列产品的能效。

Cortex-A320 支持高达 64KB 的 L1 缓存和高达 512KB 的 L2 缓存,并且具有可连接到外部存储器的 256 位 AMBA5 AXI 接口。L2 缓存和 L2 TLB 可以在 Cortex-A320 CPU 之间共享,而实现 Neon 和 SVE2 SIMD 技术的向量处理单元既可在单核复合体中专用,也可在双核或四核实现中由两个核共享。

针对不同市场的多样化优势

得益于广泛的开源 Linux 支持、强大的安全生态系统,以及 Armv9 架构所取得的关键进展,Cortex-A320 可确保与边缘侧和基础设施设备兼容,同时具备出色能效和可扩展性。

Neon 和 SVE2 向量处理技术更新提升了 ML 性能,除此之外,Armv9 架构还大大增强了安全性,这对于物联网和嵌入式系统至关重要。Cortex-A320 为 Cortex-A 的超高能效系列引入了重要的安全特性,包括增强内存安全性的内存标记扩展 (MTE),以及可减少跳转导向编程和返回导向编程攻击的指针验证 (PAC) 和分支目标识别 (BTI)。

Secure EL2 是 Cortex-A320 所采用的其中一项 Armv9 关键特性,通过增强 TrustZone 中的软件隔离,有助于在边缘设备上安全执行软件容器。

从入门级通用 MPU、智能扬声器、软件定义智能摄像头,到工厂车间内的自动驾驶车辆、自动化边缘 AI 助手、AI 人机界面和机器人控制器,Cortex-A320 可在广泛的应用中发挥上述优势。除边缘 AI 应用外,Cortex-A320 还可惠及包括智能手表和智能可穿戴设备,以及服务器基板管理控制器 (BMC) 等基础设施设备在内的众多关键细分市场。

Cortex-A320 也非常适合于以往使用高性能 Cortex-M 的应用,如电池供电的 MCU 用例或运行实时操作系统 (RTOS) 的应用,这些应用需要通过对称多处理来扩展性能,而 Arm 的 A 处理器架构开箱即支持。

此外,它还可用于需要 Cortex-A 内存管理或地址转换特性的 RTOS 应用,以增强软件的灵活性。例如,Cortex-A320 适合于需要在 MCU 设备上下载应用的用例,由于其需要内存管理单元 (MMU) 来跨内存映射进行代码重新定位。

与此同时,更宽的寻址空间使得 Cortex-A320 成为异构多核用例的高能效解决方案,在这些用例中,性能更高的 Cortex-A 与微控制器级核心相结合。借助 Cortex-A320,Arm 的合作伙伴能够将小型架构兼容的核心搭配较大的 Cortex-A 处理器,从而简化内存架构。

另一方面,由于其所具备的 A 处理器架构特性,Cortex-A320 可以提供开箱即用的 Linux 支持,并为安卓系统等现有的功能丰富的操作系统提供软件可移植性。Cortex-A320 具备出色的灵活性,适用于众多细分市场、应用和操作系统。

引入 Armv9 边缘 AI 异构计算平台

Arm Ethos-U85 NPU 旨在应对 Cortex-A 系统中的常见高延迟内存,并与 Cortex-A320 处理器协作良好。

Ethos-U85 驱动程序已完成更新,该 NPU 现可直接由 Cortex-A320 驱动,而无需基于 Cortex-M 的 ML 岛。这一更新不仅改善了延迟,还为 Arm 的合作伙伴免去了使用 Cortex-M 来驱动 NPU 的成本和复杂性。

此外,Cortex-A320 的内存访问性能和增强的内存系统使其能够执行更大规模的 ML 模型,例如超过 10 亿个参数的大语言模型 (LLM)。由于可寻址内存空间有限,这些模型很难在基于 Cortex-M 的系统上高效运行。

Ethos-U NPU 通过量化数据类型,来满足边缘 AI 用例有限的成本和能耗要求。Ethos-U85 不支持的 ML 算子和数据类型都将自动回调到 Cortex-A320 上进行处理,并利用 Neon/SVE2 引擎进行加速。

Armv9 架构实现了显著的 ML 性能提升,得益于此,在 2GHz 频率下运行,以 8 位 MAC/周期测得,四核 Cortex-A320 可以执行高达 256 GOPS。因此,无需外部加速器,Cortex-A320 便可直接在 CPU 上运行高级 ML 和 AI 用例。这为针对各种 ML 和 AI 应用的设备节省了系统面积、功耗和复杂性,并带来最高可达 0.25 TOP 的表现。

边缘 AI 新时代未来可期

Cortex-A320 将 Armv9 架构的安全性和卓越的 AI 性能引入了 Cortex-A 的超高能效系列,为软件开发者提供了开发和部署更严苛用例的新可能,开创了边缘 AI 设备的新时代。通过结合 Arm 的 A 处理器架构及相关的软件生态系统,并在高能效和灵活性支持下,Cortex-A320 为物联网领域的各个细分市场提供了卓越的可扩展性和多样化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393666
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11327

    浏览量

    225901
  • 物联网
    +关注

    关注

    2950

    文章

    48127

    浏览量

    418496

原文标题:详解 Arm Cortex-A320,针对物联网优化的超高能效 Armv9 CPU

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于ARM Cortex-M3架构用于各类通用微控制应用的指纹识别芯片-P1032BF1

    ARM Cortex-M3是一款专为嵌入式系统优化的32位RISC(精简指令集)处理器内核,基于 ‌ARMv7-M架构‌,广泛应用于STM3
    的头像 发表于 04-21 09:21 54次阅读
    基于<b class='flag-5'>ARM</b> <b class='flag-5'>Cortex</b>-M3<b class='flag-5'>架构</b>用于各类通用微控制<b class='flag-5'>器</b>应用的指纹识别芯片-P1032BF1

    探索MB9A310A系列32位ARM® Cortex® - M3 FM3微控制的魅力

    : MB9AF314LAPMC1-G-JNE2.pdf 产品概述 MB9A310A系列是高度集成的32位微控制,专为高性能和成本敏感的嵌入式控制应用而设计。它基于ARM
    的头像 发表于 03-29 09:50 225次阅读

    ADSP-21593/21594/ADSP-SC592/SC594处理器:高性能与多功能的完美融合

    /ADSP-SC592/SC594处理器凭借其卓越的性能和丰富的功能,成为众多工程师的首选。今天,我们就来深入探讨一下这款处理器的特点、架构以及应用场景。 文件下载: ADSP-21593.pdf
    的头像 发表于 03-23 16:50 622次阅读

    Cortex-M0 处理器介绍

    功耗的32位处理器Cortex-M0是Cortex-M家族中的M0系列。最大特点是低功耗的设计。Cortex-M0为32位、3级流水线RISC
    发表于 01-16 08:04

    GM9-3003-20龙芯3A6000处理器,自主架构引领工业算力‌

    3A6000处理器,以全栈国产化设计、强劲算力与丰富扩展接口,为工业场景提供高可靠、高安全的计算平台,彻底摆脱对进口芯片的依赖。 ‌****核心性能:龙芯 3A6000处理器,自主
    的头像 发表于 01-13 16:52 1569次阅读
    GM<b class='flag-5'>9</b>-3003-20龙芯3<b class='flag-5'>A</b>6000<b class='flag-5'>处理器</b>,自主<b class='flag-5'>架构</b>引领工业算力‌

    Genio 720处理器规格参数_MTK8391高算力核心板方案

    Genio 720(MT8391)处理器规格参数,采用先进的6nm制程工艺,兼顾高性能与低功耗,适配无风扇设计及电池供电移动设备需求。CPU架构:八核处理器,包含2颗Arm
    的头像 发表于 01-12 19:57 464次阅读
    Genio 720<b class='flag-5'>处理器</b>规格参数_MTK8391高算力核心板方案

    Arm Flexible Access方案引入Armv9边缘AI计算平台

    全球首个 Armv9 边缘 AI 计算平台(专为物联网及边缘 AI 工作负载优化)将纳入 Arm Flexible Access 方案,助力创新者以低成本、便捷的方式,在边缘侧获得先进的 AI 性能与安全保障
    的头像 发表于 10-29 15:27 1201次阅读

    基于蜂鸟E203架构的指令集K扩展

    向量操作指令,例如向量加法、向量乘法等。 在蜂鸟E203架构中,可以添加K扩展指令集,以处理大规模的数据集,可以添加以下指令: 1.VADD:向量加法指令,将两个向量相加并存储结果到一个向量寄存
    发表于 10-21 09:38

    迅为Hi3403V610开发板海思Cortex-A55架构核心板卡

    迅为电子重磅推出基于海思Hi3403处理器的高性能核心板,采用先进的四核Cortex-A55架构,主频高达1.4GHz,以强劲算力、超凡能效比与卓越的图像处理能力,为千行百业的智能化升
    的头像 发表于 09-30 14:18 880次阅读
    迅为Hi3403V610开发板海思<b class='flag-5'>Cortex-A</b>55<b class='flag-5'>架构</b>核心板卡

    Texas Instruments DRA821x Jacinto™ 64位处理器技术解析

    Texas Instruments DRA821x Jacinto™ 64位处理器基于ARM®v8架构,并为带有云连接性的网关系统进行了优化。片上系统 (SoC) 设计通过集成降低了系统级成本
    的头像 发表于 08-28 11:33 1293次阅读
    Texas Instruments DRA821x Jacinto™ 64位<b class='flag-5'>处理器</b>技术解析

    德州仪器AM68x Jacinto 8处理器技术解析

    Texas Instruments AM68x 64位Jacinto™ 8 TOPS Vision SoC处理器是一款基于Eval Jacinto 7架构的可扩展处理器。该系列面向智能视觉摄像机
    的头像 发表于 08-27 15:08 1366次阅读
    德州仪器AM68x Jacinto 8<b class='flag-5'>处理器</b>技术解析

    国产信创工业计算机海光3350处理器集特IPC-660工控机

    国产信创新标杆:集特IPC-660工控机搭载海光3350赋能工业自主化在工业4.0与信创国产化双轨并行的时代,海光3350处理器凭借自主可控的x86架构与工业级高性能,正成为关键基础设施的核心算力
    的头像 发表于 06-24 15:32 3232次阅读
    国产信创工业计算机海光3350<b class='flag-5'>处理器</b>集特IPC-660工控机

    在IAR Embedded Workbench for Arm中使用Arm Cortex-R52 NEON

    随着嵌入式系统变得越来越智能,对嵌入式处理器的要求也越来越高。为了更好应对汽车、医疗和工业机器人等领域对嵌入式处理器的要求,Arm推出了采用Armv8-R
    的头像 发表于 06-05 09:57 2069次阅读
    在IAR Embedded Workbench for <b class='flag-5'>Arm</b>中使用<b class='flag-5'>Arm</b> <b class='flag-5'>Cortex</b>-R52 NEON

    MT8768处理器规格参数_MTK8768联发科安卓核心板定制开发

    先进制程工艺,搭载八核ARM Cortex-A53架构,主频高达2.0GHz,运行稳定且高效,支持Android 11操作系统,成为低功耗和高性能应用的理想选择。
    的头像 发表于 05-29 19:59 3600次阅读
    MT8768<b class='flag-5'>处理器</b>规格参数_MTK8768联发科安卓核心板定制开发

    ARM服务解决方案

    可控制在15W以下,较x86架构能效比提升50%以上,尤其适合边缘计算和轻量级并发场景。 弹性扩展能力‌ 模块化设计支持通过增减处理器节点快速调整算力,硬件成本较x86架构低30%-40%,结合容器化技术实现动态资源调配。 异构
    的头像 发表于 05-16 07:44 1289次阅读
    <b class='flag-5'>ARM</b>服务<b class='flag-5'>器</b>解决方案