0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何将机器学习模型的准确性从80%提高到90%以上

电子设计 来源: 电子设计 作者: 电子设计 2020-12-10 14:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据科学工作通常需要大幅度提高工作量才能提高所开发模型的准确性。这五个建议将有助于改善您的机器学习模型,并帮助您的项目达到其目标。

如果您已经完成了一些自己的数据科学项目,那么您现在可能已经意识到,达到80%的准确性还不错!但是在现实世界中,有80%不会削减它。实际上,我工作过的大多数公司都期望至少90%的最低准确性(或他们所关注的任何度量标准)。
因此,我将讨论可以极大地提高准确性的5件事。 我强烈建议您仔细阅读所有五点内容, 因为其中包含了许多大多数初学者都不知道的细节。
到此为止,您应该理解,在决定机器学习模型的性能方面,有比您想象的更多的变量。
话虽如此,您可以做以下五件事来改善您的机器学习模型!

1.处理缺失值

我看到的最大错误之一是人们如何处理缺失的价值观,这不一定是他们的错。网络上有很多资料说,您通常通过均值插补来处理缺失值 , 将空值替换为给定特征的均值,这通常不是最佳方法。
例如,假设我们有一个显示年龄和健身得分的表,并且假设一个八十岁的孩子缺少健身得分。如果我们将平均健身得分从15到80岁的年龄范围内进行计算,那么八十岁的孩子似乎将获得比他们实际应该更高的健身得分。
因此,您要问自己的第一个问题是 为什么 数据一开始会丢失。

接下来,考虑除均值/中位数插补外的其他处理丢失数据的方法:
特征预测建模:回到我关于年龄和健身得分的示例,我们可以对年龄和健身得分之间的关系进行建模,然后使用该模型查找给定年龄的预期健身得分。这可以通过多种技术来完成,包括回归,ANOVA等。

K最近邻插补:使用KNN插补,缺失数据中填充了另一个相似样本中的值,对于不知道的数据,KNN中的相似性使用距离函数(即欧几里德距离)确定。

删除行:最后,您可以删除该行。通常不建议这样做,但是当您有大量数据开始时,它是可以接受的 。

2.特征工程

可以显着改善机器学习模型的第二种方法是通过特征工程。特征工程是将原始数据转换为更好地表示人们正在试图解决的潜在问题的特征的过程。没有具体的方法可以执行此步骤,这就是使数据科学与科学一样多的艺术。话虽如此,以下是您可以考虑的一些事项:

转换DateTime变量以仅提取一周中的一天,一年中的月份等。

为变量创建箱或桶。(例如,对于高度变量,可以为100–149厘米,150–199厘米,200–249厘米等)

组合多个功能和/或值以创建一个新功能。例如,针对泰坦尼克号挑战的最准确模型之一设计了一个新变量“ Is_women_or_child”,如果该人是女人还是孩子,则为True,否则为false。

3.特征选择

可以大大提高模型准确性的第三个领域是特征选择,即选择数据集中最相关/最有价值的特征。特征太多会导致算法过拟合,而特征太少会导致算法不足。

我喜欢使用两种主要方法来帮助您选择功能:

功能重要性:某些算法(例如随机森林或XGBoost)可让您确定哪些功能在预测目标变量的值时最“重要”。通过快速创建这些模型之一并进行功能重要性,您将了解哪些变量比其他变量更有用。

降维:主成分分析(PCA)是最常见的降维技术之一,它具有大量特征,并使用线性代数将其简化为更少的特征。

4.集成学习算法

改善机器学习模型的最简单方法之一就是简单地选择更好的机器学习算法。如果您还不知道什么是集成学习算法,那么现在该学习它了!
集合学习 是一种结合使用多种学习算法的方法。这样做的目的是,与单独使用单个算法相比,它可以实现更高的预测性能。
流行的整体学习算法包括随机森林,XGBoost,梯度提升和AdaBoost。为了解释为什么集成学习算法如此强大,我将以随机森林为例:

随机森林涉及使用原始数据的自举数据集创建多个决策树。然后,模型选择每个决策树的所有预测的模式(多数)。这有什么意义?通过依靠“多数胜利”模型,它降低了单个树出错的风险。

例如,如果我们创建一个决策树,第三个决策树,它将预测0。但是,如果我们依靠所有4个决策树的模式,则预测值为1。这就是集成学习的力量!

5.调整超参数

最后,调整模型的超参数并不经常被谈论,但仍然非常重要。在这里,必须清楚地了解正在使用的ML模型。否则,可能很难理解每个超参数。

看一下随机森林的所有超参数:

class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)

例如,了解什么是min_impurity_decrease可能是一个好主意,这样,当您希望机器学习模型更加宽容时,可以调整此参数!;)

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97138
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    确保X光设备检测的有效准确性的关键技巧

    行业关注的重点。本文围绕“X光设备检测有效”和“X光检测准确性提升”这两个核心长尾关键词,深入解析5个关键技巧,帮助企业提升设备性能,降低误差率,满足更高的检测需求。无论是制造业的质量控制还是安全检查场景,
    的头像 发表于 11-18 11:27 95次阅读

    电能质量在线监测装置的精度等级对其测量结果的准确性有何影响?

    级),误差限值宽松,准确性越低。这种影响体现在 所有关键监测参数 (稳态参数如电压、谐波,暂态参数如暂降幅值)中,且随应用场景的风险等级(如贸易结算、故障溯源)放大差异。以下 “参数维度、场景维度、技术本质” 三方面详细解
    的头像 发表于 09-26 17:40 1027次阅读

    电能质量在线监测装置定位谐波源的准确性有多高?

    网、测点密集、同步精准),准确性可达到 90% 以上;在复杂场景(如广域电网、背景谐波波动大、测点稀疏),准确性可能降至 70% 以下。以下
    的头像 发表于 09-26 15:20 374次阅读

    如何保障电能质量监测装置的准确性

    保障电能质量监测装置(以下简称 “装置”)的准确性,需贯穿其 “ 选型→安装→运行维护→校准→报废 ” 全生命周期,核心是通过 “ 源头把控硬件精度、过程规避干扰与退化、定期验证与修正 ”,确保装置
    的头像 发表于 09-23 16:03 486次阅读

    如何保证数据校验系统的时间同步以提高准确性

    在电能质量监测的数据校验系统中, 时间同步的准确性直接决定了多监测点数据的时空一致、暂态事件的时序匹配度,以及校验结果的可信度 。要保证时间同步以提升数据校验准确性,需 “协议选择
    的头像 发表于 09-19 11:28 341次阅读

    电能质量监测中,有哪些方法可以提高数据校验系统的准确性

    在电能质量监测中,数据校验系统的准确性是保障监测数据可信度的核心,需 “标准源精度、校准流程、硬件适配、算法优化、时间同步、运维管理” 等多维度构建提升方案,针对解决 “信号失真、参数偏差、环境
    的头像 发表于 09-19 10:03 417次阅读

    测缝计测量数据的准确性和校准方法解析

    在结构物安全监测领域,数据准确性是评估工程健康状态的核心依据。振弦式测缝计作为主流裂缝监测设备,其测量精度直接影响裂缝发展趋势的判断。那么如何确保测缝计测量数据的准确性以及如何校准?下面是南京峟思给
    的头像 发表于 07-07 13:56 426次阅读
    测缝计测量数据的<b class='flag-5'>准确性</b>和校准方法解析

    如何使用POT准确性检查器?

    :95:0.00% 分辨率视觉对象等级挑战 (VOC) 数据集未经英特尔验证。如 Yolo-v4-tf 文档 中所提到,英特尔已使用上下文中常见的对象 (COCO) 数据集验证了准确性。通过
    发表于 03-06 08:04

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编探讨机器
    的头像 发表于 02-13 09:39 619次阅读

    小白学解释AI:机器学习模型

    科学AI需要可解释人工智能的崛起,尤其是深度学习的发展,在众多领域带来了令人瞩目的进步。然而,伴随这些进步而来的是一个关键问题——“黑箱”问题。许多人工智能模型,特别是复杂的模型,如
    的头像 发表于 02-10 12:12 1149次阅读
    小白学解释<b class='flag-5'>性</b>AI:<b class='flag-5'>从</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>到</b>大<b class='flag-5'>模型</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    生成回答。在特定领域或任务中,可以通过微调Embedding模型提高检索的相关准确性。Embedding在大模型RAG技术中发挥着至关
    发表于 01-17 19:53

    如何提高OTDR测试的准确性

    OTDR(光时域反射仪)是光缆线路故障定位和光纤特性测量的重要工具,提高OTDR测试的准确性对于确保光缆线路的稳定运行至关重要。以下是一些提高OTDR测试准确性的方法: 一、
    的头像 发表于 12-31 09:25 1811次阅读

    如何提高电位测量准确性

    在电子工程和物理实验中,电位测量是一项基本而重要的任务。电位测量的准确性直接影响实验结果的可靠和产品的安全。 1. 选择合适的测量设备 选择合适的测量设备是
    的头像 发表于 12-28 13:56 1313次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    设计专门的编码器处理视觉、触觉、位置等不同类型的传感器数据,再用cross-attention机制将它们对齐同一语义空间。这种设计不仅提高模型的感知能力,还增强了推理过程的可解释
    发表于 12-24 15:03

    用TXS0108E进行电平转换时,当把数据速率提高到80MHz以上时信号输出电平不正常,为什么?

    你好,现在用TXS0108E进行电平转换时(A通道是2.8V电平,B通道是3.3V电平),当数据速率是50MHz进行转换时输出信号没问题,当把数据速率提高到80MHz以上时信号输出电平不正常,请问是该芯片不能支持这么高速率数据
    发表于 12-20 08:00