0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于M55H的定制化backbone模型AxeraSpine

爱芯元智AXERA 来源:爱芯元智AXERA 2023-10-10 16:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景

Backbone模型是各种视觉任务训练的基石,视觉任务模型的性能和模型的速度都受backbone模型的影响,良好的backbone模型可以有效提高视觉任务模型的性能和精度。因此设计优良的backbone模型对视觉任务模型的表现至关重要。目前存在低延迟且高性能的开源模型已经有很多,但这些模型的设计往往只考虑到了理论计算量,并没有和实际的硬件条件相结合,因此这些模型部署到实际的硬件上,并不能发挥最大的速度潜能。针对这个挑战,为了发挥backbone模型的最大潜力,我们在M55H平台上,基于MobileNetV2模型定制了适用于M55H平台的backbone模型AXSpine系列,相比于原始MobileNetV2模型,AXSpine-Middle在精度提升的同时,速度提升了50%,硬件的MAC利用率大幅提高,在多个具体任务上达到80%以上。另外还有多组通过裁剪或者扩充的AXSpine系列模型提供,以供不同延迟和精度要求的视觉任务进行选择。

性能指标

以下展示AXSpine-Middle模型和MobileNetV2模型在爱芯元智M55H平台上不同分辨率的性能对比,数据集采用ImageNet数据集,精度均在224x224分辨率条件下进行测试,更多AXSpine模型指标在文章末尾表格中:

模型名称 Input shape acc1(224 x 224 标准输入条件下) M55H 帧率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
MobileNetV2 1x3x288x160 71.88 373.7 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Middle 1x3x1280x720 72.87 36.5 fps
AXSpine-Middle 1x3x1920x1080 72.87 19.4 fps

相关模型介绍

3.1 MobileNetV2

MobileNetV2是google提出的用于移动端的backbone模型,具有精度高、计算量小的特点,在移动端设备上推理效果显著。MobileNetV2模型的基本组成块为倒置残差卷积,由两组1x1的卷积和一组3x3的depthwise卷积构成。1x1卷积主要作用为对depthwise卷积做升/降维,3x3的depthwise卷积则在升维的空间上进行卷积运算,这种架构可以在保证表达能力的同时有效地增强计算效率。随后,这种倒置残差卷积结构进行若干次的堆叠,构造成为MobileNetV2模型。

3.2 地平线相关模型

地平线公司也在自身平台上专门对backbone模型进行了优化,并推出了VarGENet和MixVarGENet等系列模型,其基本块如下图所示:

8ea7a980-6743-11ee-939d-92fbcf53809c.png

8ebce9da-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

3.3 特斯拉相关模型

特斯拉相关模型为RegNet,RegNet为何凯明的相关工作,旨在用超参数搜索的方式,指导模型设计的相关工作,在低运算量的条件下,取得了相对优良的精度,由于没有用到depthwise卷积,在GPU模型上表现良好,被特斯拉硬件采用。其基本结构与resnet等同,如下所示:

8ed53e2c-6743-11ee-939d-92fbcf53809c.jpg

模型优化

相对于MobileNetV2官方实现,AXSpine模型做了以下改动:

●将MobileNetV2的所有的depthwise卷积修改为小channel size的group卷积;

●将模型第二层的倒置残差卷积替换为一个简单的3x3 conv层;

●对不满足硬件通道对齐的层进行硬件通道对齐;

● 减小部分层的expand_ratio提高运算速度;

● 将原有的5层stage结构,仿照convnext修改为4层stage结构3393,速度提升,精度降低。

改动详细说明

5.1 depthwise卷积修改为group卷积

由于边缘侧芯片的depthwise卷积的支持往往比较低效,这导致使用depthwise卷积的MobileNetV2无法发挥理论计算效率,在这里将depthwise卷积修改为group卷积,增强模型的表达能力,由于芯片组卷积,在特定channel的情况最为高效,因此将所有的depthwise卷积修改为特定channel数的group卷积。

8edf7298-6743-11ee-939d-92fbcf53809c.png8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.2 替换第二层倒置残差卷积

MobileNetV2的第一层为一个3x3的普通卷积,第二层为一个expand_ratio = 1 的倒置残差卷积,在原有的MobileNetV2设计中,使用倒置残差卷积的目的是为了减少计算量,然而当修改为group卷积后,运算量反倒大幅增加,因此将第二层的倒置残差卷积的两个堆叠的卷积层,修改为单个普通的3x3卷积。

8ef5d358-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.3 对不满通道对齐的卷积进行对齐

硬件单元在计算的过程中,需要进行数据对齐,如果不满足数据对齐条件,就会降低运算效率,M55H硬件也是一样。因此,为了充分利用硬件的计算能力,需要对不满足channel对齐的层进行对齐操作,MobileNetV2模型中,部分层不满足硬件对齐条件,这里需要对不满足硬件对齐的层进行向上补齐操作,不影响性能,表达能力有所提升。

5.4 减小expand_ratio

由于原有的depthwise卷积被替换成了group卷积,模型的表达能力大幅增强,而我们修改MobileNetV2模型的最终目的是为了在保证精度的情况下,提升速度,因此在此处对expand_ratio进行消减,将expand_ratio从6修改为4,第二层的expand_ratio由4再消减为2,理论上模型的计算量减少约30%,这种expand_同时也考虑到了M55H的调度特性,在实际的调度过程中,由于各层特征图的大小得到了均衡,整体调度效率也得到了提升。

8f092c6e-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.5 修改模型stage排布

借鉴convnext文章中的的思路,模型应当包含有4个stage,每个stage的比例大概为13:1较优,基于此判断,对MobileNetV2模型的stage进行重新划分,将原有的stage排布按照39:3进行排列,相比于直接削减channel数提升速度的方式,修改stage对模型精度的损伤较小,修改见下图所示:

8f1adf4a-6743-11ee-939d-92fbcf53809c.jpg

总结

经过对MobilenetV2模型的适应性改动,爱芯元智发布了基于M55H芯片平台的定制化模型AXSpine,相比于原版MobilenetV2模型,AXSpine-Middle模型具有更高的精度和达到50%提升的速度。得益于爱芯元智M55H平台软硬件联合设计优化,经过改良后的AXSpine模型相较业界友商在单位算力情况下,展现出了强大的性能和延迟表现。此外除了AXSpine-Middle模型以外,还有若干组模型上架,以满足不同的延迟和精度需求,总结表格如下,以下模型目前已应用于多组视觉任务中,欢迎使用:

模型名称 Input shape acc1(224 x 224 标准输入条件下) M55H 帧率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
AXSpine-Small 1x3x576x320 71.59 227 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Big 1x3x576x320 75.31 131 fps






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6394

原文标题:爱芯分享 | 基于M55H的定制化backbone模型AxeraSpine

文章出处:【微信号:爱芯元智AXERA,微信公众号:爱芯元智AXERA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新唐科技基于端侧AI MCU M55M1的智慧门禁解决方案介绍

    针对上述痛点,新唐科技推出基于端侧AI MCU M55M1的智慧门禁解决方案,通过本地AI算力、无联网设计及图像识别技术,实现更安全、高效的门禁控制。
    的头像 发表于 11-25 07:43 9177次阅读
    新唐科技基于端侧AI MCU <b class='flag-5'>M55M</b>1的智慧门禁解决方案介绍

    定制灌封胶_特殊场景灌封胶定制服务流程与案例

    什么是灌封胶定制? 灌封胶定制是指根据客户具体的应用场景、工作环境、性能要求(如耐温、耐腐蚀、耐老化、导热、阻燃等)以及产品结构,量身研发和生产专属配方的灌封胶产品。不同于通用型产
    的头像 发表于 11-25 01:21 110次阅读
    <b class='flag-5'>定制</b>灌封胶_特殊场景灌封胶<b class='flag-5'>定制</b><b class='flag-5'>化</b>服务流程与案例

    芯伯乐700mA线性稳压器XBLW L78M05H/L78M12H:稳定可靠,简化电源设计

    在各类电子设备中,线性稳压器因其结构简单、噪声低、成本低廉而成为基础电源方案的不二之选。芯伯乐(XBLW)的L78M05H/L78M12H系列是一款经典的700mA三端固定正电压稳压器,以其卓越
    的头像 发表于 10-31 18:37 202次阅读
    芯伯乐700mA线性稳压器XBLW L78<b class='flag-5'>M05H</b>/L78<b class='flag-5'>M12H</b>:稳定可靠,简化电源设计

    电能质量在线监测装置如何进行定制与联动应用?

    电能质量在线监测装置的定制与联动应用,核心是 **“按需调整功能” 与 “数据驱动协同控制”**—— 定制针对不同行业(如新能源、工业、商业)的特殊需求优化硬件、软件或数据采集;联
    的头像 发表于 10-23 09:23 265次阅读

    如何使用rt-thread studio中,使用 定制的SDK建立工程?

    --target=eclipse生成 rt-thread studio 工程 在rt-thread studio中,使用sdk Manager 导入配置成功。 配置成功了, 问题: 我如何使用在 rt-thread studio 中,使用这个 自己的定制的 SDK
    发表于 09-26 06:16

    如何利用NuMicro® M55M1 ML MCU进行面部标志检测应用?

    如何利用NuMicro® M55M1 ML MCU进行面部标志检测应用?
    发表于 09-05 06:59

    M55M1如何通过 EBI 驱动同步信号 LCD 面板?

    [M55M1]通过 EBI 驱动同步信号 LCD 面板
    发表于 08-19 06:27

    集成Docker,解锁 HMI/网关的定制应用

    工业自动领域对定制HMI/网关的需求日益增长,而传统设备因功能固化难以满足快速迭代需求。宏集HMI&网关通过集成Docker技术,赋予设备超强的灵活性和扩展性,满足企业的个性需求
    的头像 发表于 05-22 11:06 374次阅读
    集成Docker,解锁 HMI/网关的<b class='flag-5'>定制</b><b class='flag-5'>化</b>应用

    爱芯元智荣获2025年度影响力汽车芯片大奖

    近日,中国汽车芯片产业创新战略联盟与中国电子报联合主办的汽车芯片生态大会及颁奖仪式在上海国际车展举行,爱芯元智已规模量产的车规级芯片M55H斩获“2025中国汽车芯片产业创新成果——年度影响力汽车芯片”大奖,M55H
    的头像 发表于 04-30 10:31 845次阅读

    H110M-K点位图

    H110M-K点位图
    发表于 04-14 14:51 39次下载

    基于RK芯片的主板定制:挑战、机遇与发展趋势

    随着嵌入式系统和物联网技术的蓬勃发展,市场对于具备特定功能和性能的定制主板需求日益增长。瑞芯微(Rockchip,简称RK)凭借其高性能、低功耗的芯片产品,在平板电脑、电视盒子、人工智能等领域占据
    的头像 发表于 03-27 14:50 969次阅读
    基于RK芯片的主板<b class='flag-5'>定制</b><b class='flag-5'>化</b>:挑战、机遇与发展趋势

    RAKsmart美国裸机云服务器DeepSeek的高级定制部署方案

    在RAKsmart美国裸机云服务器上进行DeepSeek的高级定制部署,需结合高性能硬件与灵活的软件配置,以实现模型优化、多任务并行及安全性提升。以下是针对企业级需求的详细方案,主机推荐小编为您整理发布RAKsmart美国裸机
    的头像 发表于 03-13 11:55 729次阅读

    AI基础模型提升癌症诊断精确度,实现个性治疗方案定制

    每位患者特有的医疗数据为其量身定制治疗方案。 该研究的资深学者、放射肿瘤学副教授李瑞江表示:“多模态基础模型是医学 AI 研究的一个新领域。最近已经出现了一些医学领域的视觉语言基础模型,尤其是病理学领域,但当前研究使用的仍是现有
    的头像 发表于 02-11 09:22 1205次阅读
    AI基础<b class='flag-5'>模型</b>提升癌症诊断精确度,实现个性<b class='flag-5'>化</b>治疗方案<b class='flag-5'>定制</b>

    新唐科技基于NuMaker-M55M1平台的人脸识别系统

    人脸识别技术已成为现代科技的重要基石,广泛应用于安全监控、门禁系统以及用户身份认证等领域。新唐科技基于 NuMaker-M55M1 平台的人脸识别系统,结合多种核心技术组件,包括图像处理技术
    的头像 发表于 01-20 10:31 1196次阅读

    安装定制防震基座时需要哪些工具和设备

    安装定制防震基座所需的工具和设备
    的头像 发表于 12-30 15:28 974次阅读
    安装<b class='flag-5'>定制</b><b class='flag-5'>化</b>防震基座时需要哪些工具和设备