0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用机器学习(CART)来预测合格率

MinitabUG 来源:MinitabUG 作者:MinitabUG 2022-06-01 14:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人类一直试图让机器具有智能,也就是人工智能(Artificial Intelligence)。从上世纪50年代,人工智能的发展经历了“推理期”,通过赋予机器逻辑推理能力使机器获得智能,当时的AI程序能够证明一些著名的数学定理,但由于机器缺乏知识,远不能实现真正的智能。因此,70年代,人工智能的发展进入“知识期”,即将人类的知识总结出来教给机器,使机器获得智能。 无论是“推理期”还是“知识期”,机器都是按照人类设定的规则和总结的知识运作,永远无法超越其创造者,其次人力成本太高。于是,一些学者就想到,如果机器能够自我学习问题不就迎刃而解了吗!机器学习(Machine Learning)方法应运而生,人工智能进入“机器学习时期”。机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。机器学习最大的突破是2006年的深度学习。深度学习是一类机器学习,目的是模仿人脑的思维过程,经常用于图像和语音识别。深度学习的出现导致了我们今天使用的(可能是理所当然的)许多技术。当你问你的iPhone关于今天的天气时,你的话语会用一种复杂的语音解析算法进行分析。如果没有深度学习,这一切都是不可能的。

机器学习与统计区别

pYYBAGKXDWKACMKNAAA4bACKLDA711.png

poYBAGKXDWWAQAX6AAA5Z5bbFYg105.png

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。
通常学习一个好的函数,分为以下三步:
1、选择一个合适的模型,这通常需要依据实际问题而定,针对不同的问题和任务需要选取恰当的模型。
2、判断一个函数的好坏,这需要确定一个衡量标准,如回归问题一般采用欧式距离,分类问题一般采用交叉验证函数。
3、找出“最好”的函数,如何从众多函数中最快的找出“最好”的那一个,学习得到“最好”的函数后,需要在新样本上进行测试,只有在新样本上表现很好,才算是一个“好”的函数。
机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习。

pYYBAGKXDW6ADHLpAABfld12yy8326.png

poYBAGKXDXOAD3JYAAB2N-WRkBM572.png


【案例分享】为了预测过程输出性能,提高客户满意度及产品质量,现从数据库中批量导入了2019年5月份生产报表,检测产品能否满足规格要求及相关生产环境,试分析影响产品质量的相关原因及预测结果。
本例共有9个变量,近5000个测试数据,其数据表如下:

poYBAGKXDXyAOiVTAAFW-HVv7y4985.png

在Minitab最新发布的版本Minitab19.2020中,除了可以将Python的脚本可以导入Minitab加载分析之外,还增加了机器学习的CART分析法。我们将上述案例用CART分析步骤如下:
1、统计---预测分析---CART分类,将响应和影响因子分别填入对应位置

pYYBAGKXDYSAY9L2AAB5JPyPozw611.png

2、点击 先验/成本,设置误分类成本

poYBAGKXDYqAYpQmAABYxWzMidc554.png

误分类成本就是判断错误的风险,例如,在医学影像检测中,把健康的人误诊为病人还不是最糟的情况,只要医生能对诊断结果进行复查,并把健康的这个人找出来就可以了。但反过来,未能诊断出真正的病人而不提供给他任何治疗,则就非常危险了。默认情况下,Minitab 使用相等的成本 1。
3、点击 验证,选择验证方法

pYYBAGKXDY-ATIAGAABmK-smvtA744.png

设置模型验证:数据通常被分为训练数据和测试数据
训练数据(学习数据)通常被用来创建模型及评估模型的系数;测试数据通常检模型性能,通过测试数据得到拟合值,在用训练数据的数据和对应的拟合值进行比较来检验模型的预测性能通过验证,防止模型过度拟合若用同一组数据来拟合模型并评估模型的拟合优度,会导致过度拟合,过度拟合的模型并不能用于很好的预测…..

pYYBAGKXDZSAaRnaAAAi3Ku8Ckg631.png

poYBAGKXDZmAUIZrAABqBExbbyo262.png

4、点击 选项,设置节点分裂方式

poYBAGKXDaCAS7HaAAB89bjVzsY333.png

默认的节点分裂,选择 基尼

pYYBAGKXDaWAWtd6AAAMQM6RLR4860.png

对所有对话框点击 确定,查看Minitab输出(部分):

poYBAGKXDamAbZ2eAABaPxEN2dE293.png


默认情况下,Minitab 为误分类成本在最小误分类成本 1 个标准误内的最小树生成输出。也可以识别最优树的序列中探索其他树。终端节点数越多,模型就越复杂。

pYYBAGKXDa2APy3QAACjjrSgDQI944.png

poYBAGKXDbGARjSOAABWvCxAVaA760.png

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。
点击ROC图左下角的预测,可以根据模型预测不同场景下的输出概率。

pYYBAGKXDbiAPR3CAABneA62wHc255.png

总结:

机器学习是目前业界最为火热的一项技术,从网上的每一次淘宝的购买东西,到自动驾驶汽车技术,以及网络攻击抵御系统等等,都有机器学习的因子在内,同时机器学习也是最有可能使人类完成“AI 梦”的一项技术,各种人工智能目前的应用,如微软小冰聊天机器人,到计算机视觉技术的进步,都有机器学习努力的成分。作为全球领先的统计分析软件,Minitab在2018年收购了SPM,并在Minitab.19.2020版中增加了预测分析的CART分类和CART回归功能,能够帮助我们了解一些机器学习的相关知识与概念,更好的理解为我们带来莫大便利技术的背后原理,以及让我们更好的理解当代科技的进程。

审核编辑:符乾江

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 预测分析
    +关注

    关注

    0

    文章

    14

    浏览量

    6549
  • Minitab
    +关注

    关注

    0

    文章

    214

    浏览量

    12426
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    提高条件分支指令预测正确的方法

    基于全局分支历史的ghare分支预测器 主要构成 分支目标缓冲器BTB 分支历史寄存器BHR 方式历史寄存器PHT 对于某个条件分支指令而言,其全局历史是相对恒定的,让PHT同时保存全局历史
    发表于 10-22 08:22

    基于全局预测历史的gshare分支预测器的实现细节

    GShare预测机制简介 GShare预测机制作为一种常用的分支预测机制,通过基于分支历史和分支地址预测分支指令的执行路径。分支历史是指
    发表于 10-22 06:50

    丝杆支撑座如何确保印刷品质?

    丝杆支撑座是印刷设备中核心功能,其性能直接关系到印刷生产的稳定性和产品合格率
    的头像 发表于 09-26 17:47 746次阅读
    丝杆支撑座如何确保印刷品质?

    提升产品合格率:电磁阀气密性检测设备的使用价值

    在自动化生产线上,电磁阀作为控制流体通断的关键部件,其密封性能直接决定了设备的运行稳定性和安全性。然而传统人工水检或目视抽查存在效率低、误判高的问题,而专业的电磁阀气密性检测设备则成为破解这一难题
    的头像 发表于 09-02 14:23 379次阅读
    提升产品<b class='flag-5'>合格率</b>:电磁阀气密性检测设备的使用价值

    【LabviewGUI设计】古朴的合格率控件的设计过程

    【LabviewGUI设计】古朴的合格率控件的设计过程 本视频讲解 这个Xcontrol的开发过程 从ps开始。 谁说labview的界面不可以有逼格。
    发表于 08-24 05:58

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据
    的头像 发表于 06-11 17:22 786次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理模型部署与工业集成!

    如何统计蜂鸟E203的分支预测

    想请问大家如何统计蜂鸟E203的分支预测,我尝试在exu_commit模块里统计,但是发现预测都有写问题,想请教以下大家
    发表于 06-10 07:05

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 625次阅读

    如何优化BP神经网络的学习

    优化BP神经网络的学习是提高模型训练效率和性能的关键步骤。以下是一些优化BP神经网络学习的方法: 一、理解学习
    的头像 发表于 02-12 15:51 1430次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习模型部署在资源受限的设备(如微
    的头像 发表于 01-25 17:05 1214次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    环球仪器Fuzion系列贴片机的优势

    环球仪器贴片机的性能及产品合格率表现,早已公认为领先同行;为了协助厂家提高总体设备效率,环球仪器在设计Fuzion贴片机时,想方设法提高其使用效率。
    的头像 发表于 01-16 09:23 1090次阅读
    环球仪器Fuzion系列贴片机的优势

    芯片良相关知识点详解

    。 #01 良的背景介绍 1.1 良在半导体制造中的重要性 生产效率和资源利用:高良率意味着更少的废弃芯片,更高的资源利用率。固定成本的晶圆如果能生产更多
    的头像 发表于 12-30 10:42 6108次阅读
    芯片良<b class='flag-5'>率</b>相关知识点详解

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统机器
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    ,能够利用\"思维链\"的技术将复杂任务分解为多个子任务,以渐进的方式解决问题。这不仅提高了任务的成功率,也显著增强了系统的鲁棒性,使得机器人可以更高效地应对复杂环境和多样化需求
    发表于 12-29 23:04

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 700次阅读