0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在边缘AI应用场景中实现高性能、低功耗推理(上)

RA生态工作室 2026-03-03 14:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为什么选择边缘AI

AI市场已经发生了根本性变革。过去,AI处理主要在云端完成。End Point设备从传感器收集数据并将其发送到云端进行推理处理和决策,结果被发送回End Point设备。这种方法需要巨大的带宽才能将海量数据传输到云端。


边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟和成本。这也降低了功耗,使其适用于电池供电的IoT应用。因此,边缘AI具有自主性、低延迟、低功耗、低成本、更低的云端带宽、安全性更高的优势,这使其对新兴应用具有吸引力。

c7ed7b5c-16c8-11f1-96ea-92fbcf53809c.png

图 1:从云端的推理迁移到边缘的推理


MCU越来越多地用于边缘AI。与MPU相比,它们提供更好的实时响应、更低的功耗、更低的成本,以及简化产品设计并降低开发和BOM成本的全面集成解决方案,使其成为低功耗和成本经济型应用的理想选择。


现已推出具有集成硬件加速器的高性能MCU,可以处理神经网络处理所需的线性代数运算,例如点积和快速、并行矩阵乘法、卷积和转置。此外,还提供针对资源有限的MCU而优化的小型神经网络模型、软件库和生态系统解决方案。


使用RA8P1 AI加速MCU构建高能效AI应用

RA8P1 MCU瑞萨电子首款AI加速的单核和双核MCU,具有高性能ArmCortex-M85(CM85)和Cortex-M33(CM33)CPU内核以及ArmEthos TM-U55神经网络处理器(NPU),是边缘AI和物联网应用的理想选择,可在AI/ML、DSP和标量性能方面提供更大的提升和更低的功耗。

RA8P1 MCU基于先进的台积电22nmULL工艺构建,提供前所未有的7300+ CoreMark原始性能和256 GOPS的AI性能,并满足了边缘AI应用对低功耗的需求。


这类MCU与大内存和丰富的外设集相结合,可以直接在MCU本身上实现要求苛刻的语音、视觉AI和实时分析应用程序。双核RA8P1 MCU可实现高处理能力、两个内核之间的高效任务划分以及优化的实时性能。此外,还内置了高级安全性、不可变内存和 TrustZone,以实现真正安全的AI应用程序。


RA8P1中嵌入的Ethos-U55 NPU是一款专用处理器,经过优化,可与CPU内核协同工作,更高效、更低功耗地执行神经网络模型的核心运算,例如矩阵乘法和卷积。Ethos-U55针对AI模型中使用的低精度算术(8位整数)进行了优化,可在不降低推理精度的情况下降低复杂性、内存使用和功耗。


瑞萨电子已经成功地展示了使用Ethos-U55进行推理处理的RA8P1 MCU的性能提升,并在一些AI/ML用例中展示了Ethos-U55NPU与CPU内核相比的显著性能提升。

c8002cac-16c8-11f1-96ea-92fbcf53809c.png

图 2:与CPU内核相比,Ethos-U55 NPU的AI性能显著提升


使用的型号:

图像分类:ResNet8、MobileNet v2、MobileNet v3

关键词识别:DS-CNN

视觉唤醒词:MobileNet v1

对象检测:Yolo_fastest、Yolov8N

异常检测:ad_medium


使用RUHMI框架实现更快的应用程序开发


RA8P1 AI解决方案采用高度可配置和优化的RUHMI框架,为AI开发人员提供更快、更高效的AI开发所需的所有工具。这是瑞萨电子第一个用于MCU和MPU 的综合AI框架,并集成到e2中,以与框架无关的方式生成和部署高度优化的神经网络模型。

RUHMI支持模型优化、量化、图形编译和转换为MCU友好格式。包括对常用ML框架TensorFlow Lite、Pytorch和ONNX的原生支持,以及针对RA8P1优化的即用型应用程序示例和模型。

c8245320-16c8-11f1-96ea-92fbcf53809c.png

图 3:使用瑞萨电子RUHMI框架的AI工作流程


使用RUHMI框架的典型AI工作流程:

模型优化和编译(离线):预先训练的AI模型通过Tensorflow Lite、Pytorch或ONNX等常用框架输入。使用RUHMI优化和转换工具,首先将模型量化为Int8中间格式并进行优化。此过程涉及图形分区、在NPU和CPU之间分离运算符,以及编译为MCU友好格式(通常为*.c/*.h)。

数据输入和预处理:RA8P1 MCU捕获原始输入数据(来自摄像头的图像、来自麦克风的音频),并由高性能Cortex-M85内核进行预处理,以输入到AI模型。

在NPU上执行:然后,CPU内核将预处理后的输入数据和编译后的AI模型的命令流发送到Ethos-U55 NPU执行。NPU读取命令流,并使用输入数据和模型权重(通常存储在本地内存中)处理神经网络的每一层。

输出和后处理:一旦NPU处理完神经网络的所有层,它就会将推理结果输出回主CPU,然后主CPU可以执行任何必要的后处理和操作。


RA8P1支持的AI应用

RA8P1 MCU具有高推理性能、低功耗和实时处理能力,是各个细分市场的不同AI应用的理想选择。

以下是RA8P1支持的一些关键应用程序:

语音人工智能:关键词识别、语音识别、语速识别、降噪、发音人识别。

视觉AI:目标检测、图像分类、手势识别、人脸识别、图像分析、驾驶员/车辆监控。

实时分析:异常检测、振动分析、预测性维护。

多模式应用:具有语音和视觉功能的智能HMI、使用语音和视觉检测事件的增强型监控摄像头、具有视觉和听觉输入的机器人技术,用于环境传感和交互。

在下一节中,我们将一起来看看RA8P1如何通过两个应用示例帮助简化AI实现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • mcu
    mcu
    +关注

    关注

    147

    文章

    18938

    浏览量

    398645
  • 低功耗
    +关注

    关注

    12

    文章

    3475

    浏览量

    106717
  • IOT
    IOT
    +关注

    关注

    190

    文章

    4397

    浏览量

    208644
  • 边缘AI
    +关注

    关注

    0

    文章

    240

    浏览量

    6155
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    何在边缘AI用场景实现高性能低功耗推理(下)

    续接上篇,我们一起看看RA8P1如何通过两个应用示例帮助简化AI实现。 应用示例1:RA8P1的图像分类 图 4:图像分类系统框图 上图显示了图像分类应用程序实现。RA8P1将构建此
    的头像 发表于 02-26 15:53 6076次阅读
    如<b class='flag-5'>何在</b><b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应<b class='flag-5'>用场景</b><b class='flag-5'>中</b><b class='flag-5'>实现</b><b class='flag-5'>高性能</b>、<b class='flag-5'>低功耗</b><b class='flag-5'>推理</b>(下)

    何在边缘AI用场景实现高性能低功耗推理

    。这种方法需要巨大的带宽才能将海量数据传输到云端。 边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟和成本。这也降低了
    的头像 发表于 02-27 07:48 9190次阅读
    如<b class='flag-5'>何在</b><b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应<b class='flag-5'>用场景</b><b class='flag-5'>中</b><b class='flag-5'>实现</b><b class='flag-5'>高性能</b>、<b class='flag-5'>低功耗</b><b class='flag-5'>推理</b>(<b class='flag-5'>上</b>)

    NanoEdge AI的技术原理、应用场景及优势

    能耗并提高数据安全性。本文将对 NanoEdge AI 的技术原理、应用场景以及优势进行综述。 1、技术原理 NanoEdge AI 的核心技术包括边缘计算、神经网络压缩和
    发表于 03-12 08:09

    AI赋能边缘网关:开启智能时代的新蓝海

    ,可完成电力负荷精准预测、故障快速定位。据市场研究机构预测,到2025年,AI边缘网关市场规模将突破千亿美元,年复合增长率超过60%。 产业新机遇已经显现。对于硬件制造商,需要开发更高性能、更
    发表于 02-15 11:41

    PTR54L15系列低功耗无线多协议模组

    设备到工业自动化和健康医疗穿戴设备,PTR54L15的灵活性与高性能使其成为边缘计算的理想选择。例如:智能家居:通过Matter协议实现跨品牌设备互联;工业传感器:借助低功耗与高算力
    发表于 06-28 21:23

    高性能低功耗双核Wi-Fi6+BLE5.3二合一

    随着物联网技术的不断发展,无线通信模块在各种应用场景扮演着越来越重要的角色。近日,蓝科迅通科技宣布推出一款基于Nordic Semiconductor的Wi-Fi 6芯片nRF7002和高性能双核
    发表于 06-28 21:42

    使用NORDIC AI的好处

    原始传感器数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备
    发表于 01-31 23:16

    如何确保CAT.1模组的高性能低功耗

    确保CAT.1模组实现高性能低功耗的完美平衡,是物联网设备长期稳定运行和降低运维成本的关键。基于我们采用的华为海思最新Hi2131芯片方案,我们通过以下四大核心技术维度实现了这一目标
    发表于 03-05 11:41

    NVIDIA 在首个AI推理基准测试中大放异彩

    的BERT、GNMT 和Jasper 等AI模型开源优化帮助开发者实现顶尖推理性能。NVIDIA的客户和合作伙伴包括有会话式AI领域的一流
    发表于 11-08 19:44

    EdgeBoard FZ5 边缘AI计算盒及计算卡

    科技携手百度,推出系列高性能及高性价比EdgeBoard 边缘AI计算卡/计算盒,助力AI项目落地。可灵活适配海量的且不断迭代的AI模型,并
    发表于 08-31 14:12

    怎么实现低功耗单芯片高性能音频CODEC的设计?

    CJC89888芯片特点是什么?低功耗芯片设计要点是什么?怎么实现低功耗单芯片高性能音频CODEC的设计?
    发表于 06-03 06:27

    蓝牙低功耗常见的应用场景及架构

    浅谈蓝牙低功耗(BLE)的几种常见的应用场景及架构
    发表于 06-15 09:51

    基于ZU3EG的低功耗高性能嵌入式AI高性能计算模组

    基于ZU3EG的低功耗高性能嵌入式AI高性能计算模组 ![在这里插入图片描述](?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVp
    发表于 12-14 08:38

    嘉楠勘智K510开发板简介——高精度AI边缘推理芯片及应用

    的支持此功能的端侧芯片之一。嘉楠勘智的第1代AI加速芯片自上市以来,以其低价格、高性能、外围器件少、使用简单等特性,深受广大AI爱好者所喜爱,成为不少人踏入边缘
    发表于 11-22 15:52

    汽车的各种ECU,如何实现低功耗高性能

    高性能低功耗是当前电子技术发展的方向,对于汽车的各种ECU来说如何实现低功耗呢?
    的头像 发表于 01-03 08:34 1.9w次阅读