0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

集成模型的原理及创建集成模型的方法

h1654155282.3538 来源:51CTO观察 作者:51CTO观察 2020-11-11 11:13 次阅读

集成学习是功能强大的机器学习技术之一。集成学习通过使用多种机器学习模型来提高预测结果的可靠性和准确性。但是,使用多种机器学习模型如何使预测结果更准确?可以采用什么样的技术创建整体学习模型?以下将探讨解答这些问题,并研究使用集成模型的基本原理以及创建集成模型的主要方法。

什么是集成学习?

简而言之,集成学习是训练多个机器学习模型并将其输出组合在一起的过程。组织以不同的模型为基础,致力构建一个最优的预测模型。组合各种不同的机器学习模型可以提高整体模型的稳定性,从而获得更准确的预测结果。集成学习模型通常比单个模型更可靠,因此,它们经常在许多机器学习竞赛中获胜。

工程师可以使用多种技术来创建集成学习模型。而简单的集成学习技术包括平均不同模型的输出结果,同时还开发了更复杂的方法和算法,专门用于将许多基础学习者/模型的预测结果组合在一起。

为什么要使用集成训练方法?

出于多种原因,机器学习模型可能会彼此不同。不同的机器学习模型可以对总体数据的不同样本进行操作,可以使用不同的建模技术,并且使用不同的假设。

想象一下,如果你加入由不同专业人员组成的团队,那么肯定会有一些你知道和不知道的技术,假设你正在和其他成员一起讨论一个技术主题。他们也像你一样,只对自己的专业有所了解,而对其他专业技术一无所知。但是,如果最终能将这些技术知识组合在一起,将会对更多领域有更准确的猜测,这是集成学习的原理,也就是结合不同个体模型(团队成员)的预测以提高准确性,并最大程度地减少错误。

统计学家已经证明,当一群人被要求用一系列可能的答案来猜测一个给定问题的正确答案时,他们所有的答案都会形成一个概率分布。真正知道正确答案的人会自信地选择正确的答案,而选择错误答案的人会将他们的猜测分散到可能的错误答案范围内。例如玩一个猜迷游戏,如果你和两个朋友都知道正确的答案是A,那么你们三个人都会选A,而团队中其他三个不知道答案的人很可能会错误地猜测是B、C、D或E,其结果是A有三票,其他答案可能只有一到两票。

所有的模型都有一定的误差。一个模型的误差将不同于另一个模型产生的误差,因为模型本身由于上述原因而不同。当检查所有的错误时,它们不会聚集在某一个答案周围,而是广泛分布。不正确的猜测基本上分散在所有可能的错误答案上,并相互抵消。与此同时,来自不同模型的正确猜测将聚集在正确的答案周围。当使用集成训练方法时,可以找到更可靠的正确答案。

简单的集成训练方法

简单的集成训练方法通常只涉及统计集成技术的应用,例如确定一组预测的模式、平均值或加权平均值。

模型是指一组数字中出现频率最高的元素。为了得到这个模型,各个学习模型返回他们的预测,这些预测被认为是对最终预测的投票。通过计算预测的算术平均值(四舍五入到最接近的整数)来确定预测的平均值。最后,可以通过为用于创建预测的模型分配不同的权重来计算加权平均值,其中权重代表该模型的预测重要性。将类别预测的数值表示与权重(从0到1.0)相乘,然后将各个加权的预测相加在一起,并将其结果进行四舍五入,从而得出最接近的整数。

高级集成训练方法

现在有三种主要的高级集成训练技术,每种技术都旨在解决特定类型的机器学习问题。 “装袋”(Bagging)技术用于减少模型预测的方差,方差是指当基于相同的观察结果时预测的结果相差多少。使用“提升”(Boosting)技术来消除模型的偏差。最后,通常使用“堆叠”(Stacking)来改善预测结果。

集成学习方法通常可以分为两类:顺序集成方法和并行集成方法。

顺序集成方法的名称为“顺序”,因为基础学习器/模型是顺序生成的。在顺序集成方法的情况下,基本思想是利用基础学习者之间的依赖关系来获得更准确的预测。标签错误的示例将调整其权重,而标签正确的示例将保持相同的权重。在每次生成新的学习者时,权重都会改变,其准确性将会提高。

与顺序集成模型相反,并行集成方法将会并行生成基础学习器。在进行并行集成学习时,可以利用基础学习器具有独立性这一事实,因为可以通过平均每个学习器的预测值来降低总体错误率。

集成训练方法可以是同质的,也可以是异质的。大多数集成学习方法是同质的,这意味着它们使用单一类型的基本学习模型/算法。与其相反,异构集成使用不同的学习算法,使学习者多样化,以确保尽可能高的准确性。

集成学习算法的示例

集成提升的可视化

顺序集成方法的示例包括AdaBoost、XGBoost和Gradient tree boosting。这些都是提升升模型。对于这些提升模型,目标是将表现欠佳的弱势学习者转变为功能强大的学习者。像AdaBoost和XGBoost这样的模型从许多弱势学习者开始,这些学习者的表现比随机猜测要好一些。随着训练的继续,将权重应用于数据并进行调整。在较早的培训中被学习者错误分类的实例将具有更大的权重。在为所需的训练回合次数重复此过程之后,通过加权和(对于回归任务)和加权投票(对于分类任务)将预测合并在一起。

装袋学习过程

并行集成模型的一个示例是随机森林分类器,并且随机森林也是装袋技术的一个示例。 “装袋”这个术语来自“引导聚合”。使用称为“自举抽样”的抽样技术从总数据集中抽取样本,基本学习者使用这些技术进行预测。对于分类任务,基本模型的输出使用投票进行聚合,而对于回归任务则将它们进行平均。随机森林使用单独的决策树作为基础学习者,并且集合中的每个决策树都是使用来自数据集的不同样本构建的。特征的随机子集也用于生成决策树。导致高度随机化的个体决策树,这些决策树全部组合在一起以提供可靠的预测。

堆叠集成可视化

在堆叠集成技术方面,多元回归或分类模型通过更高级别的元模型组合在一起。较低级别的基本模型通过输入整个数据集进行训练。然后将基本模型的输出作为训练元模型的功能。堆叠集成模型在本质上通常是异质的。
责任编辑人:CC

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130557
  • 集成模型
    +关注

    关注

    0

    文章

    2

    浏览量

    6421
  • 机器学习技术

    关注

    0

    文章

    7

    浏览量

    2935
收藏 人收藏

    评论

    相关推荐

    PSpice子电路模型创建

    对于常用的电路单元以及集成电路新产品 , 建立一个子电路模型 , 并作为一个器件添加到 PSpice 模型库中 , 就可以使电路系统设计人员非常方便地使用这些产品。文章在介绍 Pspice
    发表于 07-02 11:13

    如何提升模型能力?

    目标检测的模型集成方法及实验常见的提升模型能力的方式
    发表于 02-24 07:10

    介绍支持向量机与决策树集成模型的应用

    本文主要介绍支持向量机、k近邻、朴素贝叶斯分类 、决策树、决策树集成模型的应用。讲解了支持向量机SVM线性与非线性模型的适用环境,并对核函数技巧作出深入的分析,对线性Linear核函数、多项式
    发表于 09-01 06:57

    深度学习模型是如何创建的?

    嵌入式系统已被证明可以降低成本并增加各个行业的收入,包括制造工厂,供应链管理,医疗保健等等。本文将介绍有关深度学习嵌入式系统的信息。深度学习模型是如何创建的?创建深度学习模型涉及多个阶
    发表于 10-27 06:34

    如何创建Proteus仿真模型

    我们紧接着介绍以原理图方式创建Proteus仿真模型的详细过程。有些读者可能会想:不就是从器件库中调出元件创建嘛,我可以做一个超级器件,里面包含51、AVR、PIC等单片机器件构成的超级模组,反正
    发表于 01-24 08:08

    如何构建UVM寄存器模型并将寄存器模型集成到验证环境中

    ),通常也叫寄存器模型,顾名思义就是对寄存器这个部件的建模。本文要介绍的内容,包括对UVM寄存器模型的概述,如何构建寄存器模型,以及如何将寄存器模型
    发表于 09-23 14:29

    如何在集成模型级别上使用S32K114评估板执行PIL?

    我已经成功地使用分析器功能并在组件级别上使用 S32K114 执行 PIL 并获得了回溯测量。我现在面临的主要问题是在具有不同组件(使用模型参考块)的集成级别上使用 PIL 并以不同的周期运行。我
    发表于 04-14 08:41

    网格环境下的一种数据集成模型

    本文结合相关的网格技术和异构数据库集成技术,设计了新的基于OGSA-DAI 体系结构的数据集成模型,该模型在中间件层扩展和完善了OGSA-DAI 的功能,体现了良好的网格数据库访问与
    发表于 12-22 13:37 11次下载

    创建Proteus原理图仿真模型

    创建6位D/A转换器和TTL7458原理图模型为例,论述创建Proteus原理图仿真模型的思路与方法
    发表于 03-28 15:10 95次下载
    <b class='flag-5'>创建</b>Proteus原理图仿真<b class='flag-5'>模型</b>

    风河与Mathworks领先工具集成,基于模型设计效率倍增

    风河在PIL(Processor-in-the-Loop,处理器在环)模拟中实现了Simics和Simulink集成,显著提升基于模型设计的验证效率Simics可在基于模型设计工作流程中实现早期目标
    发表于 04-14 15:50 1801次阅读

    如何在一个集成中使用多种模型的使用向导

    在一个大型机器学习竞赛的比赛结果中,最好的结果通常是由模型集成而不是由单个模型得到的。例如,ILSVRC2015 的得分最高的单个模型架构得到了第 13 名的成绩。而第 1 到 12
    的头像 发表于 12-21 15:15 1w次阅读
    如何在一个<b class='flag-5'>集成</b>中使用多种<b class='flag-5'>模型</b>的使用向导

    目标检测的模型集成方法及实验

    模型集成是一种提升模型能力的常用方法,但也会带来推理时间的增加,在物体检测上效果如何,可以看看。
    发表于 01-26 09:05 7次下载
    目标检测的<b class='flag-5'>模型</b><b class='flag-5'>集成方法</b>及实验

    基于图集成模型的自动摘要生产方法

    现有长文本自动摘要生成方法存在句子特征单一化和无法全面衡量句子相似特征的问题,导致摘要生成的准确率降低。为此,提岀一种基于图集成模型的自动摘要生成方法。在计算得到文本句子词频、语义和句
    发表于 03-22 14:40 10次下载
    基于图<b class='flag-5'>集成</b><b class='flag-5'>模型</b>的自动摘要生产<b class='flag-5'>方法</b>

    目标检测多模型集成方法总结

    模型集成是一种提升模型能力的常用方法,但通常也会带来推理时间的增加,在物体检测上效果如何,可以看看。
    的头像 发表于 06-07 17:39 794次阅读
    目标检测多<b class='flag-5'>模型</b><b class='flag-5'>集成方法</b>总结

    Simulink集成模型测试太慢怎么办?

    作者|单线程生物小编|吃不饱Tips:现阶段模型开发大部分采用Simulink,为了验证模型实现了相关功能,需要对模型进行测试。模型测试(MiL)有单元测试和
    的头像 发表于 09-09 14:53 737次阅读
    Simulink<b class='flag-5'>集成</b><b class='flag-5'>模型</b>测试太慢怎么办?