0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型集成是一种提升模型能力的常用方法

新机器视觉 来源:AI公园 作者:AI公园 2021-01-27 11:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导读

模型集成是一种提升模型能力的常用方法,但通常也会带来推理时间的增加,在物体检测上效果如何,可以看看。

8c5baf2e-6042-11eb-8b86-12bb97331649.png

介绍

集成机器学习模型是一种常见的提升模型能力的方式,并已在多个场景中使用,因为它们结合了多个模型的决策,以提高整体性能,但当涉及到基于DNN(深度神经网络)的目标检测模型时,它并不仅仅是合并结果那么简单。

集成的需求

为了在任何模型中获得良好的结果,都需要满足某些标准(数据、超参数)。但在真实场景中,你可能会得到糟糕的训练数据,或者很难找到合适的超参数。在这些情况下,综合多个性能较差的模型可以帮助你获得所需的结果。在某种意义上,集成学习可以被认为是一种通过执行大量额外计算来弥补学习算法不足的方法。另一方面,另一种选择是在一个非集成系统上做更多的学习。对于计算、存储或通信资源的相同增加,集成系统使用两种或两种以上的方法可能会比使用单一方法增加资源的方法更有效地提高整体精度。

看起来挺好,有没有缺点呢?

更难调试或理解预测,因为预测框是根据多个模型绘制的。

推理时间根据模型和使用的模型数量而增加。

尝试不同的模型以获得合适的模型集合是一件耗时的事情。

不同的模型集成

OR方法:如果一个框是由至少一个模型生成的,就会考虑它。

AND方法:如果所有模型产生相同的框,则认为是一个框(如果IOU >0.5)。

一致性方法:如果大多数模型产生相同的框,则认为是一个框,即如果有m个模型,(m/2 +1)个模型产生相同的框,则认为这个框有效。

加权融合:这是一种替代NMS的新方法,并指出了其不足之处。

8f114b52-6042-11eb-8b86-12bb97331649.png

不同的集成方法

在上面的例子中,OR方法的预测得到了所有需要的对象框,但也得到了一个假阳性结果,一致性的方法漏掉了马,AND方法同时漏掉了马和狗。

验证

为了计算不同的集成方法,我们将跟踪以下参数:

True positive:预测框与gt匹配

False Positives:预测框是错误的

False Negatives:没有预测,但是存在gt。

Precision:度量你的预测有多准确。也就是说,你的预测正确的百分比[TP/ (TP + FP)]

Recall:度量gt被预测的百分比[TP/ (TP + FN)]

Average Precision:precision-recall图的曲线下面积

使用的模型

为了理解集成是如何起作用的,我们提供了用于实验的独立模型的结果。

1. YoloV3:

903377bc-6042-11eb-8b86-12bb97331649.png

2. Faster R-CNN — ResNeXt 101 [X101-FPN]:

90fec3a4-6042-11eb-8b86-12bb97331649.png

集成实验

1. OR — [YoloV3, X101-FPN]

91b45714-6042-11eb-8b86-12bb97331649.png

如果你仔细观察,FPs的数量增加了,这反过来降低了精度。与此同时,TPs数量的增加反过来又增加了召回。这是使用OR方法时可以观察到的一般趋势。

2. AND — [YoloV3, X101-FPN]

91f8a054-6042-11eb-8b86-12bb97331649.png

与我们使用OR方法观察到的情况相反,在AND方法中,我们最终获得了较高的精度和较低的召回率,因为几乎所有的假阳性都被删除了,因为YoloV3和X101的大多数FPs是不同的。

检测框加权融合

在NMS方法中,如果框的IoU大于某个阈值,则认为框属于单个物体。因此,框的过滤过程取决于这个单一IoU阈值的选择,这影响了模型的性能。然而,设置这个阈值很棘手:如果有多个物体并排存在,那么其中一个就会被删除。NMS丢弃了冗余框,因此不能有效地从不同的模型中产生平均的局部预测。

9281237a-6042-11eb-8b86-12bb97331649.png

NMS和WBF之间的主要区别是,WBF利用所有的框,而不是丢弃它们。在上面的例子中,红框是ground truth,蓝框是多个模型做出的预测。请注意,NMS是如何删除冗余框的,但WBF通过考虑所有预测框创建了一个全新的框(融合框)。

3. Weighted Boxes Fusion — [Yolov3, X101-FPN]

92b348f0-6042-11eb-8b86-12bb97331649.png

YoloV3和X101-FPN的权重比分别为2:1。我们也试着增加有利于X101-FPN的比重(因为它的性能更好),但在性能上没有看到任何显著的差异。从我们读过的加权融合论文中,作者注意到了AP的增加,但如你所见,WBF YoloV3和X101-FPN并不比OR方法好很多。我们注意到的是,大部分的实验涉及至少3个或更多模型。

4. Weighted Boxes Fusion — [Yolov3, X101, R101, R50]

93703e10-6042-11eb-8b86-12bb97331649.png

在最后的实验中,我们使用了YoloV3以及我们在Detectron2中训练的3个模型[ResNeXt101-FPN, ResNet101-FPN, ResNet50-FPN]。显然,召回率有一个跳跃(约为传统方法的0.3),但AP的跳跃并不大。另外,需要注意的是,当你向WF方法添加更多模型时,误报的数量会激增。

总结

当使用相互补充的模型时,集成是提高性能的一种很好的方法,但它也会以速度为代价来完成推理。根据需求,可以决定有多少个模型,采用哪种方法,等等。但从我们进行的实验来看,性能提升的数量似乎与一起运行这些模型所需的资源和推断时间不成比例。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106779
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51707
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136227

原文标题:目标检测多模型集成方法总结

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
    的头像 发表于 08-27 14:06 660次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    模型推理显存和计算量估计方法研究

    (如全连接层、卷积层等)确定所需的显存大小; (3)将各层显存大小相加,得到模型总的显存需求。 基于神经网络剪枝的显存估计 神经网络剪枝是一种减少模型参数数量的技术,可以降低显存需求。通过剪枝,可以
    发表于 07-03 19:43

    FA模型访问Stage模型DataShareExtensionAbility说明

    解决方案,让开发者平滑过渡到API 9(含)之后的版本。 基本原理 一种兼容方法是DataAbilityHelper根据传入的URI的前缀是DataAbility还是DataShare来决定是否调
    发表于 06-04 07:53

    Stage模型启动FA模型PageAbility方法

    Stage模型启动FA模型PageAbility 本小节介绍Stage模型的两应用组件如何启动FA模型的PageAbility组件。 U
    发表于 06-04 06:36

    KaihongOS操作系统FA模型与Stage模型介绍

    FA模型与Stage模型介绍 KaihongOS操作系统中,FA模型(Feature Ability)和Stage模型是两不同的应用
    发表于 04-24 07:27

    一种基于正交与缩放变换的大模型量化方法

    近年来,大规模语言模型(Large Language Models, LLMs)在自然语言处理领域取得了革命性进展。以 GPT 系列、LLaMA 等为代表的模型,通过千亿级参数的复杂结构展现出强大的语义理解和生成能力
    的头像 发表于 03-04 11:10 897次阅读
    <b class='flag-5'>一种</b>基于正交与缩放变换的大<b class='flag-5'>模型</b>量化<b class='flag-5'>方法</b>

    模型领域常用名词解释(近100个)

    的分类进行了整理,以下供参考:模型架构与基础概念大语言模型(LLM,LargeLanguageModel):一种基于深度学习的大规模神经网络模型,通常采用Transf
    的头像 发表于 02-19 11:49 1275次阅读
    大<b class='flag-5'>模型</b>领域<b class='flag-5'>常用</b>名词解释(近100个)

    文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3229次阅读
    <b class='flag-5'>一</b>文详解视觉语言<b class='flag-5'>模型</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    理和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种结合信息检索与文本生成能力的技术,它通过
    发表于 01-17 19:53

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    ,减少了计算成本。LoRA(Low-Rank Adaptation):一种基于低秩分解的微调方法,通过分解模型参数矩阵为低秩矩阵来减少参数更新的数量,提高训练效率。PET(Prompt-based
    发表于 01-14 16:51

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    、医疗、服务等领域的应用前景更加广阔,也使得人类能够更轻松地借助机器完成复杂工作。我深刻认识到,大模型技术正在从根本上改变我们对机器人能力的认知。它们不仅是一种技术工具,更是推动具身智能机器人发展的重要动力。
    发表于 12-29 23:04

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为个经常用KIMI和豆包这类AI工具来完成作业、整理资料的大学生,我原以为大
    发表于 12-20 15:46

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    的是百度的Picodet模型,它是一种基于深度卷积网络(DNN)的轻量级目标检测模型,具有非常高的检测精度,可以在低算力设备进行实时的端到端推理检测。 2.1 Picodet模型介绍
    发表于 12-19 14:33

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    多个因素以确保所选模型能够满足企业的具体需求和目标。首先,企业需要明确自己的客服需求和目标。例如,是否需要24小时在线客服服务?是否需要处理复杂问题的能力?是否需要个性化服务?明确这些需求有助于企业更好
    发表于 12-17 16:53

    卡诺模型为人工智能领域提供了一种全新的视角

    在探索人工智能如何更深层次满足用户需求、提升用户体验的旅程中,卡诺模型(Kano Model)提供了个极具价值的理论框架。这模型不仅为产
    的头像 发表于 12-11 10:17 946次阅读