如何在边缘AI应用场景中实现高性能、低功耗推理（上）-电子发烧友网

为什么选择边缘AI？

AI市场已经发生了根本性变革。过去，AI处理主要在云端完成。End Point设备从传感器收集数据并将其发送到云端进行推理处理和决策，结果被发送回End Point设备。这种方法需要巨大的带宽才能将海量数据传输到云端。

边缘设备越来越多地使用AI推理技术，以实现快速实时响应并提高数据隐私和安全性，同时避免与云连接产生的延迟和成本。这也降低了功耗，使其适用于电池供电的IoT应用。因此，边缘AI具有自主性、低延迟、低功耗、低成本、更低的云端带宽、安全性更高的优势，这使其对新兴应用具有吸引力。

图 1：从云端的推理迁移到边缘的推理

MCU越来越多地用于边缘AI。与MPU相比，它们提供更好的实时响应、更低的功耗、更低的成本，以及简化产品设计并降低开发和BOM成本的全面集成解决方案，使其成为低功耗和成本经济型应用的理想选择。

现已推出具有集成硬件加速器的高性能MCU，可以处理神经网络处理所需的线性代数运算，例如点积和快速、并行矩阵乘法、卷积和转置。此外，还提供针对资源有限的MCU而优化的小型神经网络模型、软件库和生态系统解决方案。

使用RA8P1 AI加速MCU构建高能效AI应用

RA8P1 MCU是瑞萨电子首款AI加速的单核和双核MCU，具有高性能ArmCortex-M85（CM85）和Cortex-M33（CM33）CPU内核以及ArmEthos TM-U55神经网络处理器（NPU），是边缘AI和物联网应用的理想选择，可在AI/ML、DSP和标量性能方面提供更大的提升和更低的功耗。

RA8P1 MCU基于先进的台积电22nmULL工艺构建，提供前所未有的7300+ CoreMark原始性能和256 GOPS的AI性能，并满足了边缘AI应用对低功耗的需求。

这类MCU与大内存和丰富的外设集相结合，可以直接在MCU本身上实现要求苛刻的语音、视觉AI和实时分析应用程序。双核RA8P1 MCU可实现高处理能力、两个内核之间的高效任务划分以及优化的实时性能。此外，还内置了高级安全性、不可变内存和 TrustZone，以实现真正安全的AI应用程序。

RA8P1中嵌入的Ethos-U55 NPU是一款专用处理器，经过优化，可与CPU内核协同工作，更高效、更低功耗地执行神经网络模型的核心运算，例如矩阵乘法和卷积。Ethos-U55针对AI模型中使用的低精度算术（8位整数）进行了优化，可在不降低推理精度的情况下降低复杂性、内存使用和功耗。

瑞萨电子已经成功地展示了使用Ethos-U55进行推理处理的RA8P1 MCU的性能提升，并在一些AI/ML用例中展示了Ethos-U55NPU与CPU内核相比的显著性能提升。

图 2：与CPU内核相比，Ethos-U55 NPU的AI性能显著提升

使用的型号：

图像分类：ResNet8、MobileNet v2、MobileNet v3

关键词识别：DS-CNN

视觉唤醒词：MobileNet v1

对象检测：Yolo_fastest、Yolov8N

异常检测：ad_medium

使用RUHMI框架实现更快的应用程序开发

RA8P1 AI解决方案采用高度可配置和优化的RUHMI框架，为AI开发人员提供更快、更高效的AI开发所需的所有工具。这是瑞萨电子第一个用于MCU和MPU 的综合AI框架，并集成到e2中，以与框架无关的方式生成和部署高度优化的神经网络模型。

RUHMI支持模型优化、量化、图形编译和转换为MCU友好格式。包括对常用ML框架TensorFlow Lite、Pytorch和ONNX的原生支持，以及针对RA8P1优化的即用型应用程序示例和模型。

图 3：使用瑞萨电子RUHMI框架的AI工作流程

使用RUHMI框架的典型AI工作流程：

模型优化和编译（离线）：预先训练的AI模型通过Tensorflow Lite、Pytorch或ONNX等常用框架输入。使用RUHMI优化和转换工具，首先将模型量化为Int8中间格式并进行优化。此过程涉及图形分区、在NPU和CPU之间分离运算符，以及编译为MCU友好格式（通常为*.c/*.h）。

数据输入和预处理：RA8P1 MCU捕获原始输入数据（来自摄像头的图像、来自麦克风的音频），并由高性能Cortex-M85内核进行预处理，以输入到AI模型。

在NPU上执行：然后，CPU内核将预处理后的输入数据和编译后的AI模型的命令流发送到Ethos-U55 NPU执行。NPU读取命令流，并使用输入数据和模型权重（通常存储在本地内存中）处理神经网络的每一层。

输出和后处理：一旦NPU处理完神经网络的所有层，它就会将推理结果输出回主CPU，然后主CPU可以执行任何必要的后处理和操作。

RA8P1支持的AI应用

RA8P1 MCU具有高推理性能、低功耗和实时处理能力，是各个细分市场的不同AI应用的理想选择。

以下是RA8P1支持的一些关键应用程序：

语音人工智能：关键词识别、语音识别、语速识别、降噪、发音人识别。

视觉AI：目标检测、图像分类、手势识别、人脸识别、图像分析、驾驶员/车辆监控。

实时分析：异常检测、振动分析、预测性维护。

多模式应用：具有语音和视觉功能的智能HMI、使用语音和视觉检测事件的增强型监控摄像头、具有视觉和听觉输入的机器人技术，用于环境传感和交互。

在下一节中，我们将一起来看看RA8P1如何通过两个应用示例帮助简化AI实现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

mcu

mcu

+关注

关注
147

文章
19303

浏览量
405610
低功耗

低功耗

+关注

关注
12

文章
4174

浏览量
107006
IOT

IOT

+关注

关注
190

文章
4439

浏览量
210569
边缘AI

边缘AI

+关注

关注
2

文章
296

浏览量
6259

搜索历史

如何在边缘AI应用场景中实现高性能、低功耗推理（上）

评论