0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习的回归分析和回归方法

汽车玩家 来源:智能算法 作者:智能算法 2020-01-19 17:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。

内容

1.什么是回归分析?

2.我们为什么要使用回归分析?

3.回归有哪些类型 ?

4.线性回归

5.逻辑回归

6.多项式回归

7.逐步回归

8.岭回归

9.Lasso回归

10.ElasticNet回归

什么是回归分析?

回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测,时间序列模型和找到变量之间关系。例如可以通过回归去研究超速与交通事故发生次数的关系。

我们为什么要用回归分析?

这里有一些使用回归分析的好处:它指示出自变量与因变量之间的显著关系;它指示出多个自变量对因变量的影响。回归分析允许我们比较不同尺度的变量,例如:价格改变的影响和宣传活动的次数。这些好处可以帮助市场研究者/数据分析师去除和评价用于建立预测模型里面的变量。

回归有哪些类型?

我们有很多种回归方法用预测。这些技术可通过三种方法分类:自变量的个数、因变量的类型和回归线的形状。

1.线性回归

线性回归可谓是世界上最知名的建模方法之一,也是应该是我们第一个接触的模型。在模型中,因变量是连续型的,自变量可以使连续型或离散型的,回归线是线性的。

线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系。可以用公式来表示:

Y=a+b*X+e

a为截距,b为回归线的斜率,e是误差项。

简单线性回归与多元线性回归的差别在于:多元线性回归有多个(》1)自变量,而简单线性回归只有一个自变量。到现在我们的问题就是:如何找到那条回归线?

我们可以通过最小二乘法把这个问题解决。其实最小二乘法就是线性回归模型的损失函数,只要把损失函数做到最小时得出的参数,才是我们最需要的参数。

我们一般用决定系数(R方)去评价模型的表现。

重点:

1.自变量与因变量之间必须要有线性关系。

2.多重共线性、自相关和异方差对多元线性回归的影响很大。

3.线性回归对异常值非常敏感,其能严重影响回归线,最终影响预测值。

4.在多元的自变量中,我们可以通过前进法,后退法和逐步法去选择最显著的自变量。

2. 逻辑回归

逻辑回归是用来找到事件成功或事件失败的概率。当我们的因变量是二分类(0/1,True/False,Yes/No)时我们应该使用逻辑回归。

重点:

1.在分类问题中使用的非常多。

2.逻辑回归因其应用非线性log转换方法,使得其不需要自变量与因变量之间有线性关系。

3.为防止过拟合和低拟合,我们应该确保每个变量是显著的。应该使用逐步回归方法去估计逻辑回归。

4.逻辑回归需要大样本量,因为最大似然估计在低样本量的情况下表现不好。

5.要求没有共线性。

6.如果因变量是序数型的,则称为序数型逻辑回归。

7.如果因变量有多个,则称为多项逻辑回归。

3. 多项式回归

如果一个回归,它的自变量指数超过1,则称为多项式回归。可以用公式表示:

y = a + b * x^2

在这个回归技术中,最适的线不是一条直线,而是一条曲线。

重点:

① 很多情况下,我们为了降低误差,经常会抵制不了使用多项式回归的诱惑,但事实是,我们经常会造成过拟合。所以要经常的把数据可视化,观察数据与模型的拟合程度。

② 特别是要看曲线的结尾部分,看它的形状和趋势是否有意义。高的多项式往往会产生特别古怪的预测值。

4. 逐步回归

当我们要处理多个自变量时,我们就需要这个回归方法。在这个方法中选择变量都是通过自动过程实现的,不需要人的干预。

这个工程是通过观察统计值,比如判定系数,t值和最小信息准则等去筛选变量。逐步回归变量一般是基于特定的标准加入或移除变量来拟合回归模型。

一些常用的逐步回归方法如下:

1. 标准逐步回归做两件事情。只要是需要每一步它都会添加或移除一些变量。

2. 前进法是开始于最显著的变量然后在模型中逐渐增加次显著变量。

3. 后退法是开始于所有变量,然后逐渐移除一些不显著变量。

4. 这个模型技术的目的是为了用最少的变量去最大化模型的预测能力。它也是一种降维技术。

5. 岭回归

当碰到数据有多重共线性时,我们就会用到岭回归。所谓多重共线性,简单的说就是自变量之间有高度相关关系。在多重共线性中,即使是最小二乘法是无偏的,它们的方差也会很大。通过在回归中加入一些偏差,岭回归酒会减少标准误差。

‘岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。’ ---百度百科

岭回归是通过岭参数λ去解决多重共线性的问题。看下面的公式:

机器学习的回归分析和回归方法

其中loss为损失函数,penalty为惩罚项。

重点:

1.岭回归的假设与最小二乘法回归的假设相同除了假设正态性。

2.它把系数的值收缩了,但是不会为0.

3.正则化方法是使用了l2正则。

6. LASSO回归

和岭回归类似,Lasso(least Absolute Shrinkage and Selection Operator)也是通过惩罚其回归系数的绝对值。看下面的公式:

机器学习的回归分析和回归方法

Lasso回归和岭回归不同的是,Lasso回归在惩罚方程中用的是绝对值,而不是平方。这就使得惩罚后的值可能会变成0.

重点:

1.其假设与最小二乘回归相同除了正态性。

2.其能把系数收缩到0,使得其能帮助特征选择。

3.这个正则化方法为l1正则化。

4.如果一组变量是高度相关的,lasso会选择其中的一个,然后把其他都变为0.

7. ElasticNet回归

ElasticNet回归是Lasso回归和岭回归的组合。它会事先训练L1和L2作为惩罚项。当许多变量是相关的时候,Elastic-net是有用的。Lasso一般会随机选择其中一个,而Elastic-net则会选在两个。

机器学习的回归分析和回归方法

与Lasso和岭回归的利弊比较,一个实用的优点就是Elastic-Net会继承一些岭回归的稳定性。

重点:

1.在选择变量的数量上没有限制

2.双重收缩对其有影响

3.除了这7个常用的回归技术,你也可以看看贝叶斯回归、生态学回归和鲁棒回归。

如何选择回归模型?

面对如此多的回归模型,最重要的是根据自变量因变量的类型、数据的维数和其他数据的重要特征去选择最合适的方法。以下是我们选择正确回归模型时要主要考虑的因素:

1.数据探索是建立预测模型不可或缺的部分。它应该是在选择正确模型之前要做的。

2.为了比较不同模型的拟合程度,我们可以分析不同的度量,比如统计显著性参数、R方、调整R方、最小信息标准、BIC和误差准则。另一个是Mallow‘s Cp准则。

3.交叉验证是验证预测模型最好的方法。你把你的数据集分成两组:一组用于训练,一组用于验证。

4.如果你的数据集有许多让你困惑的变量,你就不应该用自动模型选择方法,因为你不想把这些变量放在模型当中。

5.不强大的模型往往容易建立,而强大的模型很难建立。

6.回归正则方法在高维度和多重共线性的情况下表现的很好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137247
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 算法核心知识清单(深度实战版2)

    三、机器学习核心算法(入门到实战)​1.监督学习算法(已知标签的模型训练)​线性模型​线性回归回归任务):​核心原理:假设y=w₀+w₁x
    的头像 发表于 04-24 11:58 210次阅读
    AI 算法核心知识清单(深度实战版2)

    回归商业本质,筑牢技术主权:爱芯元智以开放生态定义智驾普惠方案

      4月11日,智能电动汽车发展高层论坛(2026)在北京召开。爱芯元智创始人、董事长仇肖莘博士以“回归商业本质,筑牢技术主权”为主题发表演讲,系统分析了公司对智能驾驶产业格局的深刻洞察,并进
    的头像 发表于 04-13 09:17 1874次阅读
    <b class='flag-5'>回归</b>商业本质,筑牢技术主权:爱芯元智以开放生态定义智驾普惠方案

    Robo.ai CEO 致投资者的一封信:优化资本结构实现价值回归,深耕核心业务展现经营韧性

    Split)。作为公司的 CEO,我希望借此机会与大家进行坦诚沟通,分享这一决策背后的战略考量,并向各位同步公司近期的核心业务进展。 资本结构优化:降低公司净负债水平,实现商业价值回归 本次并股计划是公司迈向"价值回归"战略蓝图的关键环节。我们认为目前的股价表现尚未能公
    的头像 发表于 04-02 10:05 197次阅读
    Robo.ai CEO 致投资者的一封信:优化资本结构实现价值<b class='flag-5'>回归</b>,深耕核心业务展现经营韧性

    微电网暂态稳定分析的前沿方法的适用场景有哪些?

    近年来,数字孪生、机器学习、分布式协同分析、混合仿真、鲁棒优化等前沿方法逐步应用于微电网暂态稳定分析,有效破解了传统
    的头像 发表于 03-25 11:37 988次阅读
    微电网暂态稳定<b class='flag-5'>分析</b>的前沿<b class='flag-5'>方法</b>的适用场景有哪些?

    余承东缺席发布会但宣布华为手机全面回归 大方公布新手机CPU型号

    余承东通过微博掷地有声地官宣:“搭载麒麟芯片和全新鸿蒙操作系统的畅享90系列发布,华为手机终于实现了全面回归!感谢一路支持、一路相伴的朋友。”
    的头像 发表于 03-25 00:00 82次阅读
    余承东缺席发布会但宣布华为手机全面<b class='flag-5'>回归</b> 大方公布新手机CPU型号

    线性回归的类型和应用

    线性回归是一种统计建模方法,用来将连续响应变量描述为一个或多个预测变量的函数。它有助于您理解和预测复杂系统的行为,或者分析试验、金融和生物数据。
    的头像 发表于 03-13 10:20 318次阅读
    线性<b class='flag-5'>回归</b>的类型和应用

    算法工程师需要具备哪些技能?

    :自动化任务(如数据预处理、模型训练调度)。Git版本控制:团队协作开发(如分支管理、代码合并)。 机器学习监督学习:线性回归、逻辑回归、决
    发表于 02-27 10:53

    4种神经网络不确定性估计方法对比与代码实现

    回归任务在实际应用中随处可见——天气预报、自动驾驶、医疗诊断、经济预测、能耗分析,但大部分回归模型只给出一个预测值,对这个值到底有多靠谱却只字不提。这在某些应用场景下会造成很多问题,比如用模型预测
    的头像 发表于 11-10 10:41 734次阅读
    4种神经网络不确定性估计<b class='flag-5'>方法</b>对比与代码实现

    数聚现场 | 浙商回归,数聚股份以一站式数字方案回哺家乡企业“数转智改”

    在浙江这片民营经济沃土上,越来越多从浙江走出去的精英,正带着前沿技术与创新理念回归,投身于家乡的数字化建设大潮。上海数聚软件系统股份有限公司(简称:数聚股份)创始人陈庆华先生出生于湖州德清,带领公司
    的头像 发表于 09-26 15:32 308次阅读

    46岁老将回归,霍尼韦尔宣布重大人事变动

    正式生效。 刘彼得(Peter Lau)今年46岁,曾担任霍尼韦尔安防、消防与电气产品事业部总裁,此次回归将接替路成(Lucian Boldea),后者将于本月底离任以寻求新的职业发展机会。 刘彼得最近担任
    的头像 发表于 08-28 18:59 1970次阅读
    46岁老将<b class='flag-5'>回归</b>,霍尼韦尔宣布重大人事变动

    【GUI设计】颜色对GUI的影响

    【LabviewGUI】颜色对GUI的影响 GUI最后一期了 后面回归主线
    发表于 08-26 04:51

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3111次阅读

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    从简单的AI应用入手,如使用机器学习算法进行房价预测。收集当地房价的相关数据,包括面积、房龄、周边设施等信息,然后选择合适的回归算法(如线性回归)来建立模型,通过不断调整参数和优化模
    发表于 07-08 17:44

    【嘉楠堪智K230开发板试用体验】K230机器视觉相关功能体验

    、画十字交叉、写字符等多种操作。具体使用方法参考官方教程机器学习-画图 图像检测 K230能够使用MicroPython进行边缘检测、线段检测、圆形检测、矩形检测、快速线性回归。官方在
    发表于 07-08 17:25

    瑞之辰:国内芯片须踏实前行,回归技术本质

    迷人眼的宣传中,深圳市瑞之辰科技却清醒地意识到:突破源于技术!芯片行业发展道阻且长,唯有脚踏实地,加大研发投入,回归技术本质,才能具备真正的竞争力。死磕工艺,国产
    的头像 发表于 06-11 16:50 1130次阅读
    瑞之辰:国内芯片须踏实前行,<b class='flag-5'>回归</b>技术本质