0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm推动生成式AI落地边缘!全新Ethos-U85 AI加速器支持Transformer 架构,性能提升四倍

晶芯观察 来源:电子发烧友 作者:黄晶晶 2024-04-16 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/黄晶晶)在嵌入式领域,边缘与端侧AI推理需求不断增长,Arm既有Helium 技术使 CPU 能够执行更多计算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器,以满足更高性能和更复杂的 AI 工作负载。Ethos-U NPU系列是业界首款 AI 微加速器,英飞凌、恩智浦半导体、奇景光电 (Himax)、Alif Semiconductor 和 Synaptics 等领先企业均已推出搭载 Ethos-U 的量产芯片。最近,Arm发布Arm Ethos-U85 AI加速器,这款加速器在性能、算力、应用场景方面进一步拓展,着眼于未来几年的边缘AI的应用所需。

全新Arm Ethos-U85 AI加速器

与上一代产品相比,Ethos-U85 性能提升四倍,能效提高 20%,它支持MAC 单元从 128 个扩展到 2048 个(在 1GHz 时,算力实现 4 TOPs)。Ethos-U85 提供了相同的一致工具链,实现无缝的开发者体验。全新 Ethos-U85 NPU 支持TensorFlow Lite 和 PyTorch 等 AI 框架。Ethos-U85可满足于智能家居、零售、工业等新兴的边缘 AI 场景对更高性能计算的需求。

wKgZomYclwuAXCUGAAKIwINsqQs457.png
图:Arm Ethos-U85 提供卓越的神经网络加速功能


Ethos-U85支持Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。Arm 物联网事业部业务拓展副总裁马健Chloe Ma分析,Ethos-U85 不仅仅提供卷积神经网络 (CNN) 所需的权重矩阵乘的运算,还支持矩阵相乘,这是 Transformer 架构网络的一个基本组成部分。Ethos-U85 增加对Transformer 架构网络的支持,这是优化大模型边缘落地微调时间、提升模型泛化的一个关键特性。

马健表示:“基于 Transformer 的模型具有优异的泛化功能,它将更快地驱动新 AI 应用的发展。Transformer 在视觉和生成式 AI 用例中,比如视频理解、图文结合,图像增强与生成、图像分类和目标检测等方面都极有价值。Transformer 架构网络的注意力机制容易利用并行计算来实现,提高硬件使用效率,使得这些模型能够部署在计算资源有限的边缘设备上。开发者可以通过选用针对 Transformer 架构网络优化的设计,发掘边缘 AI 的新机遇,使这些应用享有更快的推理、更优化的模型性能和可扩展性。”

Ethos-U85 不仅支持低功耗MCU的AI加速。在高性能边缘计算系统中,Ethos-U85与Armv9 Cortex-A CPU相结合,为基于应用处理器的智能物联网平台上运行的AI任务实现加速。这将使 Ethos-U85 能够在工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用中,带来高效能的边缘推理。

全新Arm Corstone-320智能物联网参考设计平台

Corstone-320 包含了 Cortex-M 系列最高性能的嵌入式处理器 Cortex-M85,Ethos-U85 NPU AI 加速器以及Arm Mali-C55 ISP等,以实现为视觉应用优化的低功耗系统。与此前推出的Arm物联网参考设计一致,Corstone-320 不仅仅提供芯片计算子系统 IP 组合,还附带了软件、AI 模型库和开发工具,以实现软件的复用,同时也利用了 Arm 强大的生态系统。它还附带了仿真 Corstone-320 完整系统的 Arm 虚拟硬件,以及单独的 CPU 和 NPU 的固定虚拟平台 (FVP) 模型,以简化开发并加速产品设计,支持软硬件并行协同开发。这种提供边缘 AI 和智能物联网计算子系统全套软硬件和工具链的方法,使得合作伙伴能够在一系列性能点上快速开发,并聚焦于打造差异化价值。

wKgZomYclyuAcbh3AAE7eIyZSLw925.png
图:Arm 助力加速边缘 AI 设备部署进程


马健介绍,全新的参考设计是针对实际工作负载开发的,参考用例包括部署在智能家居中的电池供电摄像系统,以及在工业和零售系统中的低帧率网络摄像头。同时,Corstone-320 参考设计提供了有安全保证的软硬件组合,使得在此参考设计基础上开发的合作伙伴们能够顺利地通过 PSA Certified Level 2 认证,实现对区域和全球安全标准的合规。总之,通过 Corstone-320 预先集成、预先验证的参考设计模版,Arm 能帮助合作伙伴减少边缘智能芯片开发的成本和时间。

基于 Arm 平台的 AI 软件生态系统

“只有 Arm 计算平台才能提供 AI 从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链完成AI 转型。”马健说道。实际上,一致性的工具链和平台对于开发者而言非常重要,尤其是面对物联网碎片化,加上AI功能引入的复杂性,如果缺少一个良好的生态、工具支持,将耗费开发者大量的开发时间。

随着边缘 AI 的持续扩展,简单易用才更适于普及推广,因此物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们汇聚在Arm计算平台。目前,包括开发者、数据科学家、学术界在内的 AI 研究开发社区,不仅持续受益于 Arm 生态系统与合作伙伴提供的丰富信息与知识,也围绕 Arm 计算平台构建日益增长的软件和工具生态系统,以及开源软件库和 AI 框架,以更简化的开发流程,扩展边缘 AI 的部署。

wKgZomYclzqAGsH9AAFhwlxkXtU102.png
图:基于 Arm 平台的 AI 软件生态系统

马健举例说:“大家熟知的 PyTorch 开源 ML 框架,广泛用于构建和训练神经网络模型,而我们也很高兴看到 PyTorch 基金会投资边缘 AI,发布针对移动和边缘设备推理工具包 ExecuTorch,提供了轻量级运行时 (Runtime) 和算子注册表,覆盖了PyTorch生态系统中的各类模型。此外,由于 Arm 特有的 IP 授权许可模式和开放生态,OEM 和 ODM 可以有多种基于 Arm 架构和计算平台的芯片与模组选择,更灵活地开发适于最终应用的系统方案。”

小结:

随着边缘 AI 的持续发展,Arm 始终处于推动市场和技术进步的核心地位,从 Cortex-M 嵌入式处理器的 Helium 矢量增强指令集,到 Cortex-A 应用处理器的 SVE、SVE2、SME 对矢量和矩阵运算的优化,再到 Ethos-U AI 加速器,Arm 不断丰富产品线并拉高性能。

马健表示,Arm 不会止步于此。随着大模型持续通过量化、剪枝和聚类技术来缩减优化模型,使大模型适于在边缘和超级终端设备部署,Arm认为大小模型云边端结合成为未来 AI 产品的重要发展趋势,也是 AI 应用赋能行业发展的重要方向。而 Arm 已经为此做好准备,来挑战物联网与大模型、多模态 AI 结合的性能与效率极限。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393583
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302571
  • AI加速器
    +关注

    关注

    1

    文章

    73

    浏览量

    9535
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    AI浪潮正在重塑嵌入开发范式,代码生成效率大幅提升的同时,“AI幻觉”问题却成为工业场景落地
    发表于 03-18 13:49

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    310P芯片的底层架构,深度剖析这款产品的技术细节、算力门槛及其在实际产业落地中的真实价值。 一、176TOPS的产业门槛:为何这是边缘算力的新起点? AI硬件的核心指标始终是算力,但
    发表于 03-10 14:19

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 15× 推理加速、显著
    发表于 01-31 23:16

    重磅合作!Quintauris 联手 SiFive,加速 RISC-V 在嵌入AI 领域落地

    (ADAS); 嵌入平台的 AI 与机器学习加速器; 工业物联网与自动化系统(开放标准架构的优势能充分发挥)。 对咱们开发者来说,这波合作最大的好处就是能拿到集成
    发表于 12-18 12:01

    边缘计算中的AI加速器类型与应用

    提升AI应用的性能。在边缘计算中,有多种类型的AI加速器,各自具有不同的优势、局限性和适用场景。
    的头像 发表于 11-06 13:42 991次阅读
    <b class='flag-5'>边缘</b>计算中的<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>类型与应用

    Alif Semiconductor的Ensemble MCU新增对ExecuTorch Runtime的支持,助力其推动边缘生成AI发展

    · Ensemble E4/E6/E8是业界首个为Transformer网络提供硬件加速的MCU系列,可在边缘设备及终端设备上实现本地生成
    的头像 发表于 11-04 11:44 1805次阅读
    Alif Semiconductor的Ensemble MCU新增对ExecuTorch Runtime的<b class='flag-5'>支持</b>,助力其<b class='flag-5'>推动</b><b class='flag-5'>边缘</b><b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>发展

    通过NVIDIA Jetson AGX Thor实现7倍生成AI性能

    Jetson Thor 平台还支持多种主流量化格式,包括 NVIDIA Blackwell GPU 架构的新 NVFP4 格式,有助于进一步优化推理性能。该平台同时支持推测解码等新技术
    的头像 发表于 10-29 16:53 1629次阅读

    BPI-AIM7 RK3588 AI与 Nvidia Jetson Nano 生态系统兼容的低功耗 AI 模块

    RK3588 提供支持,其性能优于 Jetson Nano: 更快的 CPU,性能提升四倍 充足的 LPDDR4X 内存,比 Jetson
    发表于 10-11 09:08

    【今晚7点半】正点原子 x STM32:智能加速边缘AI应用开发!今晚正点原子B站直播间等你

    【联合直播】正点原子 x STM32:智能加速边缘AI应用开发! 一、直播介绍 随着人工智能技术在边缘计算领域的快速发展,STM32系列芯片凭借其卓越的
    发表于 09-25 14:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    乘法的新型架构 基于Transformer模型的高性能FPGA加速器。 4.2基于常微分方程的加速 5、基于ASIC的大模型计算 5.1 S
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC
    发表于 09-12 16:07

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,移动设备上实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,首次在移动设备上实现 PC 级别的 AI 图形性能,为未来的端侧
    的头像 发表于 08-14 17:59 2917次阅读

    Alif Semiconductor发布支持生成AI的MCU基准测试结果,巩固其在边缘AI领域的领先地位

    · Ensemble E4/E6/E8 MCU和融合处理搭载领先的边缘AI加速器——Arm Ethos
    的头像 发表于 08-13 15:39 2.2w次阅读
    Alif Semiconductor发布<b class='flag-5'>支持</b><b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>的MCU基准测试结果,巩固其在<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>领域的领先地位

    Arm 洞察与思考:为什么 AI边缘迁移的速度超乎想象

    人工智能 (AI) 正在以惊人的速度发展。企业不再仅仅是探索 AI,而是积极推动 AI 的规模化落地,从实验性应用转向实际部署。随着
    的头像 发表于 08-11 14:43 14.6w次阅读

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    RISC-V架构AI加速器、量子AI芯片、光电组合AI芯片等。 随着大模型面临收益递减、资源浪费等困境,书中接着将目光投向 “后
    发表于 07-28 13:54