0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在边缘AI应用场景中实现高性能、低功耗推理(上)

瑞萨嵌入式小百科 来源:瑞萨电子 2026-02-27 07:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为什么选择边缘AI

AI市场已经发生了根本性变革。过去,AI处理主要在云端完成。End Point设备从传感器收集数据并将其发送到云端进行推理处理和决策,结果被发送回End Point设备。这种方法需要巨大的带宽才能将海量数据传输到云端。

边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟和成本。这也降低了功耗,使其适用于电池供电的IoT应用。因此,边缘AI具有自主性、低延迟、低功耗、低成本、更低的云端带宽、安全性更高的优势,这使其对新兴应用具有吸引力。

aff91aa6-11ff-11f1-90a1-92fbcf53809c.png

图 1:从云端的推理迁移到边缘的推理

MCU越来越多地用于边缘AI。与MPU相比,它们提供更好的实时响应、更低的功耗、更低的成本,以及简化产品设计并降低开发和BOM成本的全面集成解决方案,使其成为低功耗和成本经济型应用的理想选择。

现已推出具有集成硬件加速器的高性能MCU,可以处理神经网络处理所需的线性代数运算,例如点积和快速、并行矩阵乘法、卷积和转置。此外,还提供针对资源有限的MCU而优化的小型神经网络模型、软件库和生态系统解决方案。

使用RA8P1 AI加速MCU构建高能效AI应用

RA8P1 MCU瑞萨电子首款AI加速的单核和双核MCU,具有高性能ArmCortex-M85(CM85)和Cortex-M33(CM33)CPU内核以及ArmEthos TM-U55神经网络处理器(NPU),是边缘AI和物联网应用的理想选择,可在AI/ML、DSP和标量性能方面提供更大的提升和更低的功耗。

RA8P1 MCU基于先进的台积电22nmULL工艺构建,提供前所未有的7300+ CoreMark原始性能和256 GOPS的AI性能,并满足了边缘AI应用对低功耗的需求。

这类MCU与大内存和丰富的外设集相结合,可以直接在MCU本身上实现要求苛刻的语音、视觉AI和实时分析应用程序。双核RA8P1 MCU可实现高处理能力、两个内核之间的高效任务划分以及优化的实时性能。此外,还内置了高级安全性、不可变内存和 TrustZone,以实现真正安全的AI应用程序。

RA8P1中嵌入的Ethos-U55 NPU是一款专用处理器,经过优化,可与CPU内核协同工作,更高效、更低功耗地执行神经网络模型的核心运算,例如矩阵乘法和卷积。Ethos-U55针对AI模型中使用的低精度算术(8位整数)进行了优化,可在不降低推理精度的情况下降低复杂性、内存使用和功耗。

瑞萨电子已经成功地展示了使用Ethos-U55进行推理处理的RA8P1 MCU的性能提升,并在一些AI/ML用例中展示了Ethos-U55NPU与CPU内核相比的显著性能提升。

b06b701a-11ff-11f1-90a1-92fbcf53809c.png

图 2:与CPU内核相比,Ethos-U55 NPU的AI性能显著提升

使用的型号:

图像分类:ResNet8、MobileNet v2、MobileNet v3

关键词识别:DS-CNN

视觉唤醒词:MobileNet v1

对象检测:Yolo_fastest、Yolov8N

异常检测:ad_medium

RA8P1

https://www.renesas.cn/zh/products/ra8p1

Ethos-U55 NPU

https://developer.arm.com/documentation/102420/0200

使用RUHMI框架实现更快的应用程序开发

RA8P1 AI解决方案采用高度可配置和优化的RUHMI框架,为AI开发人员提供更快、更高效的AI开发所需的所有工具。这是瑞萨电子第一个用于MCU和MPU 的综合AI框架,并集成到e2中,以与框架无关的方式生成和部署高度优化的神经网络模型。

RUHMI支持模型优化、量化、图形编译和转换为MCU友好格式。包括对常用ML框架TensorFlow Lite、Pytorch和ONNX的原生支持,以及针对RA8P1优化的即用型应用程序示例和模型。

b18bec54-11ff-11f1-90a1-92fbcf53809c.png

图 3:使用瑞萨电子RUHMI框架的AI工作流程

使用RUHMI框架的典型AI工作流程:

模型优化和编译(离线):预先训练的AI模型通过Tensorflow Lite、Pytorch或ONNX等常用框架输入。使用RUHMI优化和转换工具,首先将模型量化为Int8中间格式并进行优化。此过程涉及图形分区、在NPU和CPU之间分离运算符,以及编译为MCU友好格式(通常为*.c/*.h)。

数据输入和预处理:RA8P1 MCU捕获原始输入数据(来自摄像头的图像、来自麦克风的音频),并由高性能Cortex-M85内核进行预处理,以输入到AI模型。

在NPU上执行:然后,CPU内核将预处理后的输入数据和编译后的AI模型的命令流发送到Ethos-U55 NPU执行。NPU读取命令流,并使用输入数据和模型权重(通常存储在本地内存中)处理神经网络的每一层。

输出和后处理:一旦NPU处理完神经网络的所有层,它就会将推理结果输出回主CPU,然后主CPU可以执行任何必要的后处理和操作。

RA8P1支持的AI应用

RA8P1 MCU具有高推理性能、低功耗和实时处理能力,是各个细分市场的不同AI应用的理想选择。

以下是RA8P1支持的一些关键应用程序:

语音人工智能:关键词识别、语音识别、语速识别、降噪、发音人识别。

视觉AI:目标检测、图像分类、手势识别、人脸识别、图像分析、驾驶员/车辆监控。

实时分析:异常检测、振动分析、预测性维护。

多模式应用:具有语音和视觉功能的智能HMI、使用语音和视觉检测事件的增强型监控摄像头、具有视觉和听觉输入的机器人技术,用于环境传感和交互。

在下一节中,我们将一起来看看RA8P1如何通过两个应用示例帮助简化AI实现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    39866

    浏览量

    301513
  • MPU
    MPU
    +关注

    关注

    0

    文章

    455

    浏览量

    51356
  • 瑞萨电子
    +关注

    关注

    39

    文章

    2974

    浏览量

    74382
  • 边缘AI
    +关注

    关注

    0

    文章

    240

    浏览量

    6155

原文标题:如何在边缘AI应用场景中实现高性能、低功耗推理(上)

文章出处:【微信号:瑞萨嵌入式小百科,微信公众号:瑞萨嵌入式小百科】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何确保CAT.1模组的高性能低功耗

    确保CAT.1模组实现高性能低功耗的完美平衡,是物联网设备长期稳定运行和降低运维成本的关键。基于我们采用的华为海思最新Hi2131芯片方案,我们通过以下四大核心技术维度实现了这一目标
    发表于 03-05 11:41

    何在边缘AI用场景实现高性能低功耗推理

    送回EndPoint设备。这种方法需要巨大的带宽才能将海量数据传输到云端。边缘设备越来越多地使用AI推理技术,以实现快速实时响应并提高数据隐私和安全性,同时避免与云连接产生的延迟
    的头像 发表于 03-03 14:18 5370次阅读
    如<b class='flag-5'>何在</b><b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应<b class='flag-5'>用场景</b><b class='flag-5'>中</b><b class='flag-5'>实现</b><b class='flag-5'>高性能</b>、<b class='flag-5'>低功耗</b><b class='flag-5'>推理</b>(<b class='flag-5'>上</b>)

    何在边缘AI用场景实现高性能低功耗推理(下)

    续接上篇,我们一起看看RA8P1如何通过两个应用示例帮助简化AI实现。 应用示例1:RA8P1的图像分类 图 4:图像分类系统框图 上图显示了图像分类应用程序实现。RA8P1将构建此
    的头像 发表于 02-26 15:53 6075次阅读
    如<b class='flag-5'>何在</b><b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应<b class='flag-5'>用场景</b><b class='flag-5'>中</b><b class='flag-5'>实现</b><b class='flag-5'>高性能</b>、<b class='flag-5'>低功耗</b><b class='flag-5'>推理</b>(下)

    使用NORDIC AI的好处

    原始传感器数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备
    发表于 01-31 23:16

    基于NVIDIA模组与软件套件推动边缘与机器人AI推理

    NVIDIA 正式推出 NVIDIA Jetson T4000,将高性能 AI 与实时推理能力带入更广泛的机器人和边缘 AI 应用。T400
    的头像 发表于 01-14 09:46 557次阅读
    基于NVIDIA模组与软件套件推动<b class='flag-5'>边缘</b>与机器人<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    蓝牙网关是什么?都有哪些功能?应用场景有哪些?

    。 安全防护机制:采用AES-128加密、安全配对、HTTPS传输等技术,防范数据泄露与恶意攻击,满足医疗、工业等敏感场景需求。 应用场景 凭借灵活部署与低功耗优势,蓝牙网关已在多领域实现
    发表于 12-11 15:21

    工业视觉网关:RK3576赋能多路检测与边缘AI

    ~150ms6TOPS NPU 边缘AI推理易对接 MES / 追溯系统 一、产线痛点:从“人看”到“机判”的转变· 多工位/多角度同步:单机位覆盖不足,典型项目需 8~12 路并发,且画面时序一致性要求高
    发表于 10-16 17:56

    边缘AI关键驱动与应用场景讲解

       边缘AI(Edge AI)是指在本地边缘设备(如传感器、物联网设备、智能手机、无人机、摄像头、边缘服务器等)
    的头像 发表于 09-10 16:06 706次阅读

    RK3576助力智慧安防:8路高清采集与AI识别

    全屏/分屏切换,4G、Wi-Fi、双千兆以太网实现实时推流。3. 米尔RK3576核心板平台优势强大的算力:6TOPS NPU高性能:8路视频+AI识别同时运行,CPU占用率仅34%低功耗
    发表于 08-22 17:41

    高性能低功耗双核Wi-Fi6+BLE5.3二合一

    随着物联网技术的不断发展,无线通信模块在各种应用场景扮演着越来越重要的角色。近日,蓝科迅通科技宣布推出一款基于Nordic Semiconductor的Wi-Fi 6芯片nRF7002和高性能双核
    发表于 06-28 21:42

    PTR54L15系列低功耗无线多协议模组

    设备到工业自动化和健康医疗穿戴设备,PTR54L15的灵活性与高性能使其成为边缘计算的理想选择。例如:智能家居:通过Matter协议实现跨品牌设备互联;工业传感器:借助低功耗与高算力
    发表于 06-28 21:23

    低功耗Wi-Fi 6模块物联网:NRF7002

    ; · ‌医疗穿戴设备‌:通过低功耗特性延长设备续航,保障连续监测需求。 市场前景展望随着边缘AI应用和智能汽车电子架构的升级,高性能无线模块已成为硬件创新的核心组件之一。迅通科技通过
    发表于 05-21 17:10

    能效比达2TOPS/W!解密边缘AI芯片低功耗设计之法

    电子发烧友网报道(文/李弯弯)边缘AI芯片低功耗设计是其在移动设备、物联网终端等资源受限场景中落地的关键。在物联网、可穿戴设备、智能家居等对功耗
    的头像 发表于 05-17 00:07 4550次阅读

    RK3588核心板在边缘AI计算的颠覆性优势与场景落地

    推理任务,需额外部署GPU加速卡,导致成本与功耗飙升。 扩展性受限:老旧接口(如USB 2.0、百兆网口)无法支持5G模组、高速存储等现代外设,升级困难。 开发周期长:BSP适配不完善,跨平台AI
    发表于 04-15 10:48

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能低功耗和灵活扩展的需求。 [](
    发表于 03-19 17:54