0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中最常见错误解决方案

新机器视觉 来源:机器之心 作者:机器之心 2022-08-08 16:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当你构建第一个模型,注意避免这5个坑。

数据科学和机器学习正变得越来越流行,这个领域的人数每天都在增长。这意味着有很多数据科学家在构建他们的第一个机器学习模型时没有丰富的经验,而这也是错误可能会发生的地方。

近日,软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章,他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案,以确保初学者了解并避免它们。

以下为文章内容:

在机器学习领域,初学者避免这 5 个坑

1、在需要的地方没有使用数据归一化

对数据进行归一化操作,然后获取特征,并将其输入到模型中,让模型做出预测,这种方法是很容易的。但在某些情况下,这种简单方法的结果可能会让人失望,因为它缺少一个非常重要的部分。

一些类型的模型需要数据归一化,如线性回归、经典神经网络等。这类模型使用特征值去乘训练值的权重。在非归一化特征的情况下,一个特征值的可能范围可能不同于另一个特征值的可能范围。

假设一个特征的值在 [0,0.001] 范围内,另一个特征的值在 [100000,200000] 范围内。对于使两个特征同等重要的模型,第一个特征的权重将比第二个特征的权重大 1 亿倍。巨大的权重可能会给模型带来严重问题,比如存在一些异常值的时候。此外,估计各种特征的重要性变得困难,因为权重大可能意味着特征很重要,但也可能只是意味着其特征值很小

归一化后,所有特征的值都在相同的范围内,通常为 [0,1] 或 [-1,1]。在这种情况下,权重将在相似的范围内,并与每个特征的实际重要性密切对应。

总的来说,在需要的地方使用数据归一化将产生更好、更准确的预测。

2、认为特征越多越好

有人可能会认为加入所有特征是一个好主意,认为模型会自动选择并使用最好的特征。实际上,这种想法很难成真。

模型的特征越多,过拟合的风险越大。即使在完全随机的数据中,模型也能够找到一些特征(信号),尽管有时较弱,有时较强。当然,随机噪声中没有真实信号。但如果我们有足够多的噪声列,则该模型有可能根据检测到的故障信号使用其中的一部分。当这种情况发生时,模型预测质量将会降低,因为它们一定程度上基于随机噪声。

现在有许多技术帮助我们进行特征选择。但你要记住,你需要解释你拥有的每一个特征,以及为什么这个特征会帮助你的模型。

3. 在需要外推的情况下,使用基于树的模型

基于树的模型易于使用,功能强大,这也是其受欢迎的原因。然而,在某些情况下,使用基于树的模型可能是错误的。

基于树的模型无法外推,这些模型的预测值永远不会大于训练数据中的最大值,而且在训练中也永远不会输出比最小值更小的预测值。

在某些任务中,外推能力可能非常重要。例如,如果该模型预测股票价格,那么未来股票价格可能会比以往任何时候都高。在这种情况下,基于树的模型将无法直接使用,因为它们的预测几乎会超过最高历史价格。

这个问题有多种解决方案,一种解决方案是预测变化或差异,而不是直接预测价值。另一种解决方案是为此类任务使用不同类型的模型。线性回归或神经网络就可以进行外推。

4、在不需要的地方使用数据归一化

之前文章谈到了数据归一化的必要性,但情况并非总是如此,基于树的模型不需要数据归一化。神经网络可能也不需要明确的归一化,因为有些网络内部已经包含归一化层,例如 Keras 库的 BatchNormalization 操作。

在某些情况下,即使是线性回归也可能不需要数据归一化,这是指所有特征都已处于类似的值范围,并且具有相同的含义。例如,如果模型适用于时间序列数据,并且所有特征都是同一参数的历史值。

5. 在训练集和验证集 / 测试集之间泄漏信息

造成数据泄漏比人们想象的要容易,考虑以下代码段:

67499348-165a-11ed-ba43-dac502259ad0.png

数据泄漏的示例特性

实际上,这两种特征(sum_feature 和 diff_feature)都不正确。它们正在泄漏信息,因为在拆分到训练集 / 测试集后,具有训练数据的部分将包含来自测试的一些信息。这将导致更高的验证分数,但当应用于实际的数据模型时,性能会更差。

正确的方法是首先将训练集 / 测试集分开,然后才应用特征生成功能。通常,分别处理训练集和测试集是一种很好的特征工程模式。

在某些情况下,可能需要在两者之间传递一些信息 —— 例如,我们可能希望在测试集和训练集上使用相同的 StandardScaler。

总而言之,从错误中吸取教训是件好事,希望上述所提供的错误示例能帮助到你。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108184
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95025
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137226

原文标题:机器学习初学者易踩的5个坑

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    UPS电源维修故障大全:常见问题排查与解决方案

    UPS电源作为机房、工业产线、精密设备的“电力保镖”,一旦出现故障,轻则设备重启、数据丢失,重则引发生产中断、硬件损坏。本文梳理UPS电源高频故障现象、成因及可落地解决方案,覆盖开机异常、报警、续航
    的头像 发表于 03-28 13:48 2628次阅读
    UPS电源维修故障大全:<b class='flag-5'>常见</b>问题排查与<b class='flag-5'>解决方案</b>

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个<b class='flag-5'>常见</b><b class='flag-5'>错误</b>与局限性

    三防漆应用失败?八个常见问题与解决方案一文搞定 | 东莞 铬锐特实业

    东莞三防漆|铬锐特实业官网 | 三防漆涂覆失败怎么办?本文总结8个最常见问题(如起泡、不均匀、发白、附着力差等)及实用解决方案,一文帮您避开三防漆应用坑点,提升电子产品防护成功率。
    的头像 发表于 12-24 00:36 675次阅读
    三防漆应用失败?八个<b class='flag-5'>常见</b>问题与<b class='flag-5'>解决方案</b>一文搞定 | 东莞 铬锐特实业

    程序员最常见谎言

    前任留下的 Bug。 14这个问题可能是由于客户端的错误引起的。 15我已经检查了所有的服务器配置,没有发现任何问题。 16在我机器上是好好的! 17你清缓存了吗?浏览器是谷歌浏览器吗? 18这个
    发表于 12-10 08:24

    分析负载特性时,有哪些常见错误或误区?

    分析负载特性时,很多人会因 “想当然套用经验”“忽略实际场景细节” 或 “混淆概念” 导致判断偏差,进而让报警阈值调整失效(如误报、漏报)。以下是 6 个最常见错误 / 误区,附错误表现、危害
    的头像 发表于 10-10 17:03 1098次阅读

    Nginx常见故障案例总结

    在互联网公司的运维生涯中,Nginx故障可以说是最常见也最让人头疼的问题之一。从简单的配置错误到复杂的性能瓶颈,从偶发的502到持续的高延迟,每一个故障背后都有其独特的原因和解决方案
    的头像 发表于 09-18 14:51 1524次阅读

    吉时利源表2400故障排查常见问题与解决方案

    吉时利源表2400作为一款广泛应用于通信、半导体、计算机、汽车与医疗行业的测试仪器,其稳定性和准确性对于各类研究与生产活动至关重要。以下是该设备在使用过程中常见的一些故障及其相应的解决方案,旨在
    的头像 发表于 09-17 16:48 850次阅读
    吉时利源表2400故障排查<b class='flag-5'>常见</b>问题与<b class='flag-5'>解决方案</b>

    规避生产陷阱:PCB设计中常见错误解决方案

    生产阶段造成严重问题,导致设计报废、生产延误和成本增加。原型的成功并不意味着量产也能成功,因此 在设计早期阶段就应考虑生产可行性的重要性。   本文总结了常见的与生产相关的设计缺陷并提供了解决方案。 缺乏关键信号测试点   问题 : 这是最
    的头像 发表于 09-08 11:15 5889次阅读
    规避生产陷阱:PCB设计中<b class='flag-5'>常见</b>的<b class='flag-5'>错误</b>及<b class='flag-5'>解决方案</b>

    国巨贴片电容的电压标识有哪些常见错误

    国巨贴片电容的电压标识在识别和使用过程中可能存在一些常见错误,这些错误可能源于标识本身的模糊性、不同系列产品的差异、对标识规则的误解,或使用环境的影响。以下是具体分析: 一、标识模糊或
    的头像 发表于 08-28 16:51 946次阅读

    在使用示波器探测时,你犯过这7大错误吗?

    不尽相同,每次探测设备,需要选择对测量影响最小的探头,这是成功测量的关键。以下这些错误,是大家在测量过程中最常见的,请牢记它们并在平时的测量中规避这些错误,以便获
    的头像 发表于 07-23 17:33 859次阅读
    在使用示波器探测时,你犯过这7大<b class='flag-5'>错误</b>吗?

    NCS放大器DAD3350常见错误码及解决方案

    NCS放大器DAD3350在工业应用中可能出现的错误码及解决方案如下: ‌ 一、常见错误码及原因 ‌ ‌ 过载报警(如LV低电压报警、OVC过电流报警) ‌ ‌ 原因 ‌: 电源电压异
    的头像 发表于 07-12 09:41 1150次阅读

    电商API常见错误排查指南:避免集成陷阱

      在电商平台开发中,API集成是连接系统、实现数据交换的核心环节。然而,许多开发者在集成过程中常遇到错误,导致项目延迟、数据丢失或用户体验下降。本文将逐步介绍常见错误类型、排查方法以及预防策略
    的头像 发表于 07-11 14:21 2299次阅读
    电商API<b class='flag-5'>常见</b><b class='flag-5'>错误</b>排查指南:避免集成陷阱

    PCBA代工避坑指南:常见问题+解决方案全解析

    一站式PCBA加工厂家今天为大家讲讲PCBA代工代购元器件常见问题有哪些?PCBA代工代购元器件常见问题及解决方案。随着科技的不断发展和市场需求的变化,越来越多的企业选择通过外包方式进行PCBA生产
    的头像 发表于 07-09 09:38 1001次阅读

    内网穿透避坑指南 6 大常见错误 + 保姆级解决方案

    在内网穿透部署中,哪怕是老手也可能踩坑!今天整理了6大高频错误场景+实战解决方案,帮你少走弯路,效率翻倍 1.端口映射失败:访问显示「连接超时」 ❌错误原因: 本地服务未启动或端口被占用 防火墙
    的头像 发表于 05-20 12:14 932次阅读

    原理图和PCB设计中的常见错误

    在电子设计领域,原理图和PCB设计是产品开发的基石,但设计过程中难免遇到各种问题,若不及时排查可能影响电路板的性能及可靠性,本文将列出原理图和PCB设计中的常见错误,整理成一份实用的速查清单,以供参考。
    的头像 发表于 05-15 14:34 1419次阅读