0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何利用NPU与模型压缩技术优化边缘AI

MATLAB 来源:MATLAB 2025-11-07 15:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

| 本文作者:

Johanna Pingel,MathWorks 产品市场经理

Jack Ferrari,MathWorks 产品经理

Reed Axman,MathWorks 高级合作伙伴经理

随着人工智能模型从设计阶段走向实际部署,工程师面临着双重挑战:在计算能力和内存受限的嵌入式设备上实现实时性能。神经处理单元(NPU)作为强大的硬件解决方案,擅长处理 AI 模型密集的计算需求。然而,AI 模型体积庞大,部署在 NPU上常常面临困难,这凸显了模型压缩技术的重要性。要实现高效的实时边缘 AI,需要深入探讨NPU 与模型压缩技术(如量化与投影)如何协同工作。

NPU 如何在嵌入式设备上实现实时性能

在嵌入式设备上部署AI模型的关键挑战之一是最小化推理时间——即模型生成预测所需的时间,以确保系统具备实时响应能力。例如,在实时电机控制应用中,推理时间通常需要低于10 毫秒,以维持系统稳定性与响应性,并防止机械应力或部件损坏。工程师必须在速度、内存、功耗与预测质量之间取得平衡。

NPU 专为 AI 推理与神经网络计算而设计,非常适合处理能力有限且对能效要求极高的嵌入式系统。与通用处理器(CPU)或高性能但耗能较大的图形处理器(GPU)不同,NPU 针对神经网络中常见的矩阵运算进行了优化。虽然 GPU 也能执行AI推理任务,但 NPU 在成本与能耗方面更具优势。

从成本角度看,NPU是比微控制器(MCU)、GPU 或 FPGA 更具经济性的AI处理方案。尽管集成 NPU 的芯片初期成本可能高于传统微控制器,但其卓越的能效与 AI 处理能力使其在整体价值上更具吸引力。NPU专为加速神经网络推理而设计,在功耗远低于 CPU 的同时提供更高的性能。这种效率不仅降低了运行成本,还延长了嵌入式设备的电池寿命,从而在长期使用中更具成本效益。此外,NPU 可实现实时AI处理,无需依赖更昂贵、耗能更高的 GPU 或 FPGA,进一步增强了其经济吸引力。

NPU 是一种经济、高能效的解决方案,专为嵌入式系统中的高效 AI 推理与神经网络计算而设计。

尽管 NPU 在 AI 推理方面效率极高,但在嵌入式系统中,其内存与功耗仍然有限。因此,模型压缩成为关键手段,以减小模型体积与复杂度,使 NPU 在不超出系统限制的前提下实现实时性能。

利用投影与量化压缩 AI 模型

模型压缩技术通过减小模型体积与复杂度,提升推理速度并降低功耗,从而帮助大型AI模型部署到边缘设备。然而,过度压缩可能会影响预测精度,因此工程师需谨慎评估在满足硬件限制的前提下可接受的精度损失范围。

投影与量化是两种互补的压缩技术,可联合使用以优化 AI 模型在 NPU 上的部署。投影通过移除冗余的可学习参数来减小模型结构,而量化则将剩余参数转换为低精度(通常为整数)数据类型,从而进一步压缩模型。两者结合可同时压缩模型结构与数据类型,在保持精度的同时提升效率。

推荐的做法是先使用投影对模型进行结构压缩,降低其复杂度与体积,再应用量化以进一步减少内存占用与计算成本。

投影

神经网络投影是一种结构压缩技术,可通过将层的权重矩阵投影到低维子空间来减少模型中的可学习参数。在MATLAB Deep Learning Toolbox中,该方法基于主成分分析(PCA),识别神经激活中变化最大的方向,并通过更小、更高效的表示来近似高维权重矩阵,从而移除冗余参数。这种方式在保留模型准确性与表达能力的同时,显著降低了内存与计算需求。

量化

量化是一种数据类型压缩技术,通过将模型中的可学习参数(权重与偏置)从高精度浮点数转换为低精度定点整数类型,来减少模型的内存占用与计算复杂度。这种方法可显著提升模型的推理速度,尤其适用于NPU部署。虽然量化会带来一定的数值精度损失,但通过使用代表实际运行情况的输入数据对模型进行校准,通常可以在可接受的范围内保持准确性,满足实时应用需求。

应用案例:在 STMicroelectronics 微控制器上部署量化模型

STMicroelectronics 开发了一套基于 MATLAB 与 Simulink 的工作流程,用于将深度学习模型部署到 STM32 微控制器。工程师首先设计并训练模型,随后进行超参数调优与知识蒸馏以降低模型复杂度。接着,他们应用投影技术移除冗余参数以实现结构压缩,并使用量化将权重与激活值转换为8位整数,从而减少内存使用并提升推理速度。这种双阶段压缩方法使得深度学习模型能够在资源受限的 NPU 与 MCU 上部署,同时保持实时性能。

199c22a0-ba30-11f0-8c8f-92fbcf53809c.png

对一个包含LSTM层的循环神经网络在建模电池荷电状态时,投影并调优前后的准确率、模型大小与推理速度进行对比。

在 NPU上部署 AI 模型的最佳实践

投影与量化等模型压缩技术可显著提升 AI 模型在 NPU 上的性能与可部署性。然而,由于压缩可能影响模型精度,因此必须通过仿真与硬件在环(HIL)验证进行迭代测试,以确保模型满足功能与资源要求。尽早且频繁地测试有助于工程师在问题扩大前及时发现并解决,从而降低后期返工风险,确保嵌入式系统部署顺利进行。

统一的开发生态系统也能解决 AI 模型部署中面临的诸多挑战,简化集成流程,加快开发进度,并在整个过程中支持全面测试。在当今软件环境日益碎片化的背景下,这一点尤为重要。工程师常常需要将不同代码库集成到仿真流程或更大的系统环境中。由于各平台与标准开发环境分离,集成与验证的复杂性进一步增加。引入 NPU 后,工具链的复杂性也随之上升,因此更需要统一的生态系统来应对这些挑战。

面向边缘设计:在功耗、精度与性能之间寻求平衡

嵌入式 AI 的未来以性能为核心,专为边缘环境而构建,并由驱动复杂工程系统的 AI 模型提供动力。工程师的成功依赖于对模型压缩权衡的深入理解、在硬件上尽早进行测试,以及构建具备适应性的系统。通过将智能的 NPU 与 AI 模型设计相结合,并辅以战略性的压缩技术,工程师能够将嵌入式设备转变为强大的实时决策引擎。

| 本文作者

Johanna Pingel, MathWorks

Johanna Pingel 是 MathWorks 的产品市场经理。她专注于机器学习和深度学习应用,致力于让人工智能变得实用、有趣且易于实现。她于 2013 年加入公司,专长于使用 MATLAB 进行图像处理和计算机视觉应用。

Jack Ferrari, MathWorks

Jack Ferrari 是 MathWorks 的产品经理,致力于帮助 MATLAB 和 Simulink 用户将 AI 模型压缩并部署到边缘设备和嵌入式系统中。他拥有与多个行业客户合作的经验,包括汽车、航空航天和医疗器械行业。Jack 拥有波士顿大学机械工程学士学位。

Reed Axman, MathWork

Reed Axman 是 MathWorks 的高级合作伙伴经理,负责为 STMicroelectronics、Texas Instruments 和 Qualcomm 等公司提供以硬件为中心的 AI 工作流程支持。他与 MathWorks 的合作伙伴及内部团队协作,帮助客户将嵌入式 AI 能力集成到其产品中。他拥有亚利桑那州立大学机器人与人工智能硕士学位,研究方向为用于医疗应用的软体机器人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5186

    文章

    20143

    浏览量

    328644
  • AI
    AI
    +关注

    关注

    89

    文章

    38083

    浏览量

    296312
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51692
  • NPU
    NPU
    +关注

    关注

    2

    文章

    358

    浏览量

    20823

原文标题:更智能、更小巧、更快速:工程师如何通过 NPU 与模型压缩优化边缘 AI

文章出处:【微信号:MATLAB,微信公众号:MATLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模型压缩技术,加速AI模型在终端侧的应用

    电子发烧友网报道(文/李弯弯)当前,全球众多科技企业都在积极研究AI模型,然而因为参数规模太大,要想实现AI模型在边/端侧部署,需要用到模型
    的头像 发表于 04-24 01:26 3547次阅读

    NanoEdge AI技术原理、应用场景及优势

    能耗并提高数据安全性。本文将对 NanoEdge AI技术原理、应用场景以及优势进行综述。 1、技术原理 NanoEdge AI 的核心技术
    发表于 03-12 08:09

    AI赋能边缘网关:开启智能时代的新蓝海

    ,准确率达到99.9%。 这一技术革新正在创造巨大的商业价值。在智慧城市领域,AI边缘网关可以实现交通流量实时分析、违章行为智能识别;在工业互联网中,能够实现设备预测性维护、生产工艺优化
    发表于 02-15 11:41

    无法在NPU上推理OpenVINO™优化的 TinyLlama 模型怎么解决?

    NPU 上推断 OpenVINO™优化的 TinyLlama 模型。 遇到的错误: get_shape was called on a descriptor::Tensor with dynamic shape
    发表于 07-11 06:58

    如何精准驱动菜品识别模型--基于米尔瑞芯微RK3576边缘计算盒

    ,RKNN-Toolkit2是释放MYD-LR3576-B内部6 TOPS NPU潜力的钥匙。 它大大降低了开发者将AI模型部署到瑞芯微边缘计算平台的
    发表于 10-31 21:19

    【HarmonyOS HiSpark AI Camera】边缘计算安全监控系统

    打火机)就报警的模型,实现边缘测的相关检测和报警的业务逻辑。中期,完成传感器数据和视频推流到云端,实现远程监控。后期,各个环节的丰富和优化,比如多传感器、设备接入等,组成一套较完善系统。
    发表于 09-25 10:11

    网络边缘实施AI的原因

    AI推向边缘的影响通过在边缘运行ML模型可以使哪些具体的AI项目更容易运行?
    发表于 02-23 06:21

    音频处理SoC在500 µW以下运行AI

    。” “我们的团队一直致力于在边缘上充分利用可用的处理能力和内存来实现低功耗AI和ML,包括开发我们自己的正在申请专利的重量压缩方案,同时还要强调易于部署。”新的NPUDSP集团的新的
    发表于 03-03 10:49

    基于RKNN程序开发和模型转换的NPU简要说明

    /16bit 运算,运算性能高达 3.0TOPS。相较于 GPU 作为 AI 运算单元的大型芯片方案,功耗不到 GPU 所需要的 1%。可直接加载 Caffe / Mxnet / TensorFlow 模型
    发表于 05-31 11:10

    嵌入式边缘AI应用开发指南

    、PyTorch和MXNet框架中常用的开源深度学习模型。这些模型在公共数据集上经过预训练和优化,可以在TI适用于边缘AI的处理器上高效运行
    发表于 11-03 06:53

    ST MCU边缘AI开发者云 - STM32Cube.AI

    STM32微控制器生成优化的C代码,无需事先安装软件。数据科学家和开发人员受益于STM32Cube.AI久经考验的神经网络优化性能,以开发边缘AI
    发表于 02-02 09:52

    边缘AI模型压缩技术

    在某个时间点,人们认为大型和复杂的模型表现更好,但现在它几乎是一个神话。随着边缘AI的发展,越来越多的技术将大型复杂模型转换为可以在
    的头像 发表于 10-19 14:22 1936次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b><b class='flag-5'>压缩</b><b class='flag-5'>技术</b>

    边缘AI模型压缩技术

    模型压缩是在计算能力和内存较低的边缘设备上部署SOTA(最先进的)深度学习模型的过程,而不会影响模型在准确性、精度、召回率等方面的性能。
    的头像 发表于 05-05 09:54 1676次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b><b class='flag-5'>压缩</b><b class='flag-5'>技术</b>

    国科微:将持续优化边缘AI战略布局

    国科微近日在接受调研时透露,公司正积极推进搭载自研NPU架构的芯片研发,主要聚焦在边缘侧应用。公司表示,将持续优化边缘AI战略布局,加快
    的头像 发表于 02-23 11:23 1391次阅读

    NPU技术如何提升AI性能

    设计的处理器,与传统的CPU和GPU相比,它在执行深度学习任务时具有更高的效率和更低的能耗。NPU通过专门优化的硬件结构和指令集,能够更快地处理神经网络中的大量并行计算任务。 1. 优化硬件架构
    的头像 发表于 11-15 09:11 2316次阅读