0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

你知道TinyML运行效能谁说了算吗?

jf_cVC5iyAO 来源:易心Microbit编程 2023-08-03 16:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI芯片或神经加速处理器(Neural Network Processing Unit, NPU或Deep Learning Accelerator, DLA)领域中,大家也都说自家的芯片世界最棒,对手看不到车尾灯,难道没有一个较为公正衡量芯片运行(推论)效能,就像手机跑分软件一样,让大家比较信服的基准吗?

其实在AI芯片领域中所谓的「效能」,可能因关心的重点不同而会有不同定义和解读。分别可从硬件每秒可执行乘加的次数(又可细分FP32,FP16及INT8等)、对于特定模型在指定推论精度下每秒可执行次数或推论一次所需时间(包含有无模型优化处理)、特定模型推论功耗(推论一次耗费焦耳数)、每瓦特可执行乘加指令次数及其它特定规范时的表现,甚至有用每块美金获得算力来当成基准。所以常会遇到谁也不服谁,老王卖瓜自卖自夸的现象。

目前较被大家接受的就是ML Commons所提出的MLPerf规范,其中包含训练及推论两大项,而推论部份又可细分为数据中心(Datacenter)、边缘(Edge)、行动(Mobile)及微型(Tiny,大多为MCU)。前不久(2023/6/27)才刚公布了Tiny v1.1测试结果报告,接下来就帮大家解读一下这份报告,让大家能更了解未来单芯片运行AI的方向及可行性。

评测场景及项目

目前ML Commons在Tiny部份先前已经过三轮(v0.5, v0.7, v1.0)测试,此次公布的是v1.1结果。测试时分为封闭(Closed)及开放(Open)型式,前者依官方规范测,而后者厂商可提出依自己规范测试更优的结果,不过不是每轮评测都会有开放型式。

目前主要评测项目如Fig.1 所示,共有四个项目,包含关键词侦测(Keyword Spoting, KS)、视觉唤醒字(Visual Wake Words, VW)、影像分类(Image Classification, IC)及异常侦测(Anomaly Detection, AD)。而每个项目都是采单串流数据(Single Stream)方式进行,即推论完一笔再取下一笔进行推论。依照不同项目,分别使用对应的数据集和模型,并在指定的推论质量下进行评量。

wKgZomTLYEaANXFwAAFCAFJOc0s385.jpg

Fig.1 MLPerf v1.1 工作场景及效能评量项目

参与评测公司、硬件及软件

本次参与评测的项目共有32项,以下依不同项目分别介绍。

参与评测公司:共有10家,Krai, Nuvoton(新唐科技), STMicroelectronics(简称STM), Skymizer(台湾发展软件科技), cTuning, fpgaconvnet, Plumerai, Syntiant, Robert Bosh GmbH, kai-jiang(个人)。

参与评测开发板:共有14种,规格下如下所示。

STM NUCLEO-H7A3ZI-Q, Arm Cortex-M7(DSP+FPU) @280MHz

STM NUCLEO-L4R5ZI, Arm Cortex-M4(DSP+FPU) @120MHz

STM NUCLEO-U575ZI-Q, Arm Cortex-M33(DSP+FPU) @160MHz

STM NUCLEO-G0B1RE, Arm Cortex-M0+ @64MHz

STM DISCO-F746NG, Arm Cortex-M7(DSP+FPU) @216MHz

Nordic nRF5340 DK, Arm Cortex-M33(DSP+FPU) @128MHz

Nuvoton NUMAKER-M467HJ, Arm Cortex-M4F @200MHz

DIGILENT Cora Z7, Arm Cortex-A9 @667MHz

DIGILENT ZC706, Arm Cortex-A9 @650MHz

DIGILENT ZedBoard, Arm Cortex-A9 @650MHz

DIGILENT ZyBo, Arm Cortex-A9 @650MHz

Infineon CY8CPROTO-062-4343W, Arm Cortex-M4 (DSP + FPU) @150MHz

Syntiant NDP9120, HiFi3+M0 @30.7MHz/98.7MHz

ZCU106, RISC-V @20MHz

主要CPU规格:共有7大类。只有1项使用RISC-V,1项为MCU+NPU,其余皆是Arm Based。Cortex-M为单芯片(MCU)等级,Cortex-A为微处理器(MPU)等级芯片,用于手机或单板微电脑

Arm Cortex-M0+ (1项)

Arm Cortex-M33 (4项)

Arm Cortex-M4/M4F (13项)

Arm Cortex-M7 (7项)

Arm Cortex-A9 (4项)

Syntiant HiFi3+M0 (2项)

RISC-V (1项)

主要软件及函式库:共有9种。

Skymizer ONNC

MicroTVM

Plumerai Inference Engine

Syntiant TDK+SDK

Bosch Hardware-Aware Lowering Engine(HALE)

STM X-CUBE-AI

fpgaConvNet(Model+Optimiser)

Arm CMSIS-5

TVM

评测结果:

由于芯片等级落差颇大,单从推论时间(毫秒ms)及能耗(微焦耳uJ 比较可能会有点不公平,所以这里依CPU等级及工作频率来分会更清楚些。Fig. 2分别列出各等级中推论速度表现最好的。

wKgaomTLYEaAHbHTAAP1WwqQPI8795.jpg

Fig.2 MLPerf Tiny v1.1各等级CPU及不同应用表现最佳清单。

另外从此次提交的项目亦可看出Arm Cortex-M4已成为TinyML的主流,若推论仍不够快时,则可再提升到Cortex-M7。而新上市的Cortex-M33效能已高过Cortex-M4,略低于Cortex-M7,让使用者有多一点性价比的选择空间。

小结

在边缘智能(Edge AI)装置及智能物联网(AIoT)应用中使用单芯片(MCU)来运行AI(TinyML)已是现在进行式,透过此次的评比结果,可让大家更了解各家芯片性能及模型优化工具的进展,未来随着MCU+NPU的普及,相信下一次的评比结果可能就有更大跃升,就让大家一起期待吧!



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM处理器
    +关注

    关注

    6

    文章

    361

    浏览量

    43131
  • MPU
    MPU
    +关注

    关注

    0

    文章

    442

    浏览量

    51051
  • Cortex-M4
    +关注

    关注

    6

    文章

    100

    浏览量

    47817
  • 加速处理器
    +关注

    关注

    0

    文章

    8

    浏览量

    6529
  • AI芯片
    +关注

    关注

    17

    文章

    2069

    浏览量

    36580

原文标题:TinyML (MCU AI) 运行效能谁说了算?

文章出处:【微信号:易心Microbit编程,微信公众号:易心Microbit编程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    力湘军,让力变成生产力?

    脑极体
    发布于 :2025年11月25日 22:56:58

    从CPU、GPU到NPU,美格智能持续优化异构力计算效能

    前言AI力已成为数字经济时代的核心生产力,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业力资源平均利用率仅为30%~40%,存在严重的力浪费现象。国内领先
    的头像 发表于 11-21 16:05 770次阅读
    从CPU、GPU到NPU,美格智能持续优化异构<b class='flag-5'>算</b>力计算<b class='flag-5'>效能</b>

    钙钛矿电池稳定性评估谁说了算?实验室间比对表明:测量方法是关键

    钙钛矿材料因在高效低成本下一代光伏电池中的潜力受关注,其太阳能电池效率已超22%,但因复杂动态行为,效率测量较其他技术更复杂,长期认为这会大幅降低测量可靠性,却未明确定量程度,且缺乏标准化测量方法,影响对新材料与制备工艺的正确评估,阻碍技术发展。美能钙钛矿复合式MPPT测试仪采用AAA级LED太阳光模拟器作为老化光源,可通过多种方式对电池进行控温并控制电池所
    的头像 发表于 10-29 09:04 180次阅读
    钙钛矿电池稳定性评估<b class='flag-5'>谁说了算</b>?实验室间比对表明:测量方法是关键

    低功耗蓝牙定位模块

    商城联合知名方案公司推出了可用于可穿戴设备和物联网项目。单面表贴设计和板载蓝牙天线可以极大地促进物联网项目的快速部署。 首次具备无线功能,支持蓝牙 5.0,并能够以低功耗运行。 蓝牙
    发表于 10-23 14:01

    知道板卡厂商参与芯片研发的α阶段意味着什么?

    大家都知道芯片很重要,但是否知道一颗芯片从设计构思到最终量产,需要经历怎样一个漫长的过程吗?
    的头像 发表于 09-24 17:08 7274次阅读
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>板卡厂商参与芯片研发的α阶段意味着什么?

    100G 高速线缆:睿海光电以技术突破与极速响应赋能智互联新时代

    在人工智能大模型训练、云计算集群扩容与超中心算力跃升的驱动下,100G 高速线缆作为数据中心内部短距互联的核心载体,其性能、兼容性与部署效率直接决定智网络的运行效能。深圳市睿海光电
    的头像 发表于 08-19 14:51 522次阅读

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    inference library for microcontrollers (TinyML).]运行mnist手写数字识别任务cd examples/mnist mkdir build cd
    发表于 07-25 16:35

    高能工控主板:力强、运行快、多扩展、场景广

    在工业自动化、智能制造、边缘计算等领域,高性能、高可靠性的工控主板是支撑系统稳定运行的核心。国产主板,凭借强劲的力、高效的运行速度、丰富的扩展接口以及广泛的应用场景,成为工业级计算设备的理想选择。
    的头像 发表于 07-14 09:23 312次阅读

    这次说了算!先楫半导体开发者生态技术日

    HPM为开发者量身打造的生态活动正在规划中! 赶紧动动发财的小手填个小问卷,告诉我们关心的话题和期待的场景,我们会认真阅读每一份问卷,听取大家的宝贵建议,期待您的反馈哈!
    发表于 07-10 11:21

    这次说了算!先楫半导体开发者生态技术日规划中,调查问卷等你来填

    HPM为开发者量身打造的生态活动正在规划中! 赶紧动动发财的小手填个小问卷,告诉我们关心的话题和期待的场景,我们会认真阅读每一份问卷,听取大家的宝贵建议,期待您的反馈哈!
    发表于 07-10 11:10

    知道船用变压器有哪些吗?

    在船舶和海洋平台上,电力系统的稳定运行至关重要,而船用变压器作为其中的关键设备,其种类繁多,各具特点。知道船用变压器有哪些吗?让我们一起来揭开它们的神秘面纱。CSD船用变压器是船舶供电系统中
    的头像 发表于 06-01 00:00 485次阅读
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>船用变压器有哪些吗?

    推拉力测试设备制造厂商,专不专业您说了算!#专业制造厂家#工厂#

    测试仪
    力标精密设备
    发布于 :2025年05月16日 16:52:35

    熵基科技实现BioCV TinyML与DeepSeek大模型融合

    近日,熵基科技宣布了一项重大技术突破。该公司自主研发的“BioCV TinyML模型”已成功与全球知名的LLM大模型DeepSeek实现接入与融合。 这一融合成果不仅彰显了熵基科技在智能物联和智慧
    的头像 发表于 02-19 16:15 1115次阅读

    中心的力如何衡量?

    作为当下科技发展的重要基础设施,其力的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算力衡量的详细阐述:一、力的基本定义与单位1、
    的头像 发表于 01-16 14:03 4261次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b>力如何衡量?