0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从四个经典角度看机器学习的本质

DPVg_AI_era 来源:cc 2019-02-13 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

何谓“机器学习”,学界尚未有统一的定义。本文摘取Tom Mitchell、Christopher M. Bishop、去年出版的《深度学习》和侧重实战的《数据挖掘》,总结了四种机器学习主流定义。更好地研究“机器学习”,并继续扩展和完善它的定义,也有助于我们理解机器学习的本质。

你或许已经读过许多关于机器学习的深度和和半深度的文章,并探讨了机器学习与众多其他主题的关系。在讨论如此复杂的概念时,回到最初的一些共同参考资料总是一个好主意;问题是,对于机器学习这样的主题,存在无数这样的参考资料。

所以我想,为什么不研究一下这些参考点呢?

这是一篇不那么严肃的帖子,旨在探讨机器学习的本质。

话不多说,作为一个看似属于语义学的练习,让我们来探索一下关于机器学习的定义。

Tom Mitchell:根据优化过程抽象定义机器学习

第一个定义,是我个人最喜欢的,来自著名的计算机科学家、机器学习研究者,卡内基梅隆大学的 Tom Mitchell 教授。

对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善,那么我们称这个计算机程序在从经验 E 中学习。[1]

Mitchell 的这个定义在机器学习领域是众所周知的,并且经受了时间的考验。这句话首次出现在他 1997 年出版的Machine Learning一书中。

这句话对我个人产生了很大的影响,多年来我多次提到它,并在硕士论文中引用了这个定义。在 Goodfellow, Bengio & Courville 最近出版的权威著作《深度学习》(Deep Learning) 的第 5 章中,这段引文也占据了突出位置,成为该书对学习算法的解释的出发点。

下图是 Mitchell 定义的图示:

图 1:The Mitchell Paradigm

“花书”《深度学习》:论计算在机器学习中的重要性

说到 Goodfellow、Bengio 和 Courville,就不得不提他们合著的《深度学习》,这本书对机器学习是这样定义的:

机器学习本质上属于应用统计学,更多地关注如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间。[2]

Mitchell 对机器学习的定义在应用中不再适用;它侧重于优化过程的具体组成部分,这些组成部分通常与机器学习有关,但它没有规定应该如何在实践中接近它。

《深度学习》中对机器学习的定义在本质上要规范得多,它指出计算能力得到了利用 (实际上强调了对计算能力的使用),而传统的统计概念置信区间则不再强调。

实战数据挖掘:“学习”必须是有意地去学习

在我看来,另一个特别值得注意的关于机器学习的定义来自 Witten, Frank & Hall 所著的《数据挖掘:实用机器学习工具与技术》,这是我第一本完整阅读了的关于这个主题的书。

《数据挖掘》这本书很少涉及数学,但有很多实用性的解释。对于刚进入机器学习领域的人,“数据挖掘” 很长一段时间是我的首选推荐。

作者对机器学习最初定义有点零散,他们试图在机器学习和数据挖掘的背景中将学习、性能和知识这些概念编织在一起。但其中一些语句值得注意:

我们感兴趣的是在新的情况下得到性能的改进,或至少有性能改进的潜力。

当系统以一种使它们在未来表现更好的方式改变自己的行为时,它们就会学习。

学习意味着思考和目标。学习必须是有意地去学习。

经验表明,在机器学习和数据挖掘的许多应用中,所获得的显式知识结构、结构描述,至少与在新实例中表现良好的能力同等重要。人们经常使用数据挖掘来获取知识,而不仅仅是用来预测。

“数据挖掘”这个术语被用作机器学习的补充术语。上面引用的语句出自这本书的第三版,出版于 2011 年,当时数据挖掘这个词比现在更有吸引力;即使不说是引用自数据挖掘的书,上面所写的内容对机器学习本身也适用。

Witten, Frank & Hall 为机器学习的定义提供了一个不同的角度:Mitchell 专注于优化过程的特定组成部分,Goodfellow, Bengio & Courville 倾向于一种更规范的定义,并强调计算能力的相对重要性,这个定义则尝试侧重 “learning” 的哪些方面在机器学习过程中是类似和重要的。

上面引用的语句还提供了一个重要的点,兼具实用性和哲学性,即最后一段,指出获得知识和使用这些知识的能力都是机器学习的重要方面。

Christopher Bishop:从算法的角度定义

最后,让我们来看 Christopher Bishop 在《模式识别和机器学习》一书中对机器学习的定义。值得注意的是,Bishop 没有开门见山地定义这个术语,但是很好地隐式地提供了以算法为中心的机器学习的定义 (在一个数字分类任务中讨论到):

机器学习算法的结果表示为一个函数 y (x),它以一个新的数字的图像 x 作为为输入,产生向量 y,与 target vector 的形式相同。

函数 y (x) 的精确形式是在训练阶段(trainingphase) 确定的,也称为学习阶段 (learningphase),以训练数据为基础。

一旦模型被训练出来,就可以用来判断新的数字图像 (新样本) 对应的标签,这些新样本的集合被称为测试集。

正确分类与训练集不同的新样本的能力叫做泛化(generalization)。在实际应用中,输入向量的可变性使得训练数据只能包含所有可能输入向量的很小一部分,因此泛化是模式识别的一个中心目标。[4]

首先,除了我们讨论的机器学习是有监督学习,而不是无监督学习或强化学习 (或其他形式的机器学习) 外,上面的引用对 “模式识别” 没有更多的解释。

其次,也是更重要的一点,这是唯一对机器学习所需步骤逐步处理的定义,无论这些步骤在这个例子中可能多么简短。

同样有趣的是,随后的页面,以及 Bishop 的书一半的篇幅概述了许多额外的机器学习概念,并将它们很好地结合在一起,提供了具有可读性的介绍,而不至于陷入数学的困境 (书中的其余部分解释了数学)。

这样,我们已经有四种方法来定义机器学习:一种是根据它的优化过程,抽象地定义它机器学习;第二种更有规范性,并指出计算在机器学习中的重要性;第三定义侧重于“学习”的哪些方面在机器学习过程中是类似的和重要的;最后一个定义从算法的角度概述了机器学习。

这些定义都不是不正确,但都不完整。探讨先驱者和受人尊敬的研究人员所认为的 “机器学习”,将扩展我们自己对机器学习的定义。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137278
  • 深度学习
    +关注

    关注

    73

    文章

    5611

    浏览量

    124665

原文标题:机器学习的本质是什么?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    USB RFID读写器的四个常见应用

    任何需要小型、低成本读卡器的应用,都值得考虑USB RFID读写器。USB读写器具备大部分大型同类的基本功能,只是功率稍低一些。如果你有一款非常适合RFID的应用,但又想控制预算,可以看看斯科的USB桌面读写器。为了让你了解USB读写器的功能,我在下面列出了四个常见应用。
    的头像 发表于 04-13 14:51 662次阅读

    基于MT6816的±0.05°高精度角度测量系统调试实现

    °的实际测量精度,需硬件设计、接口调试、误差校准、数据滤波四个维度进行系统性调试优化。本文结合工程实操经验,详细阐述该高精度测量系统的调试流程、关键技术要点及验证方法,为伺服电机、精密云台、机器人关节等场景的应用提供可落地的技
    的头像 发表于 03-16 15:25 335次阅读

    PCBA生产过程的四个主要环节?

    PCBA生产过程的四个主要环节 PCBA(Printed Circuit Board Assembly)生产过程是将电子元器件组装到印刷电路板(PCB)上,形成完整电子产品的过程。虽然直接参考资料
    的头像 发表于 03-05 11:13 458次阅读

    再谈低温烧结银的应用:春晚机器人出镜的幕后推手说起

    戴:10万次弯折电阻稳定,适配柔性基材。 光伏逆变器:寿命10万小时延至15万小时,多发电5季度。 、春晚机器人与低温烧结银:产业共振 1技术验证:春晚高动态、高可靠场景,是低温
    发表于 02-17 14:07

    架构到驱动:这三本经典书,承包了我的嵌入式Linux入门与进阶

    私房菜(基础学习篇 第版)》《Linux 设备驱动开发(第 2 版)》,这三本书恰好构成了 “底层架构” 到 “系统基础” 再到 “驱动开发” 的完整学习链路。
    的头像 发表于 02-09 17:02 1397次阅读

    合科泰MOSFET选型的四个核心步骤

    面对数据手册中繁杂的参数,如何快速锁定适合应用的 MOSFET?遵循以下四个核心步骤,您能系统化地完成选型,避免因关键参数遗漏导致的设计风险。
    的头像 发表于 12-19 10:33 947次阅读

    自动驾驶中常提的“强化学习”是啥?

    下,就是一智能体在环境里行动,它能观察到环境的一些信息,并做出一动作,然后环境会给出一反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化
    的头像 发表于 10-23 09:00 937次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是<b class='flag-5'>个</b>啥?

    如何 MCU/MPU 角度保护物联网应用?

    如何 MCU/MPU 角度保护物联网应用?
    发表于 09-08 07:33

    技术角度,一款优秀的煮蛋器 PCBA 方案能带来哪些体验升级?

    作为一每天早餐离不开鸡蛋的人,用过不下十款煮蛋器后发现:决定产品体验的核心,往往藏在看不见的 PCBA 方案里。最近入手的新款煮蛋器,让我真切感受到了技术迭代带来的差异。 一、温控精度:
    的头像 发表于 07-14 11:10 620次阅读

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口 skyworksinc

    电子发烧友网为你提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口相关产品参数、数据手册,更有
    发表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>频前端模块,带<b class='flag-5'>四个</b>线性 TRx 开关端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口 skyworksinc

    电子发烧友网为你提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口相关产品参数、数据手册,更有
    发表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>频前端模块,带<b class='flag-5'>四个</b>线性 TRx 开关端口 skyworksinc

    用于频 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四个线性 TRx 开关端口和双频 TD-SCDMA skyworksinc

    电子发烧友网为你提供()用于频 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四个线性 TRx 开关端口和双频 TD-SCDMA相关产品参数、数据手册,更有用于频 GSM
    发表于 05-28 18:31
    用于<b class='flag-5'>四</b>频 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有<b class='flag-5'>四个</b>线性 TRx 开关端口和双频 TD-SCDMA skyworksinc

    ADAU1787四个ADC、两DAC、带音频DSP的低功耗编解码器技术手册

    ADAU1787 是一款具有四个输入和两输出的编解码器,其中整合了两个数字信号处理器 (DSP)。模拟输入到 DSP 内核再到模拟输出的路径已针对低延迟进行优化,适用于噪声消除耳机。通过加入少量无源组件,ADAU1787 提
    的头像 发表于 05-12 14:57 1786次阅读
    ADAU1787<b class='flag-5'>四个</b>ADC、两<b class='flag-5'>个</b>DAC、带音频DSP的低功耗编解码器技术手册

    PLC产品故障问题测试的四个部分

    ,必须对故障问题进行系统化测试。本文将详细介绍PLC产品故障问题测试的四个关键部分,帮助技术人员快速定位和解决问题。 一、硬件测试 硬件测试是PLC故障诊断的首要环节,主要针对PLC设备的物理部件进行检查。首先,需要检查电源模块是否
    的头像 发表于 05-11 17:00 2192次阅读
    PLC产品故障问题测试的<b class='flag-5'>四个</b>部分

    四个方面深入剖析富捷电阻的优势

    理成本的电阻产品系列,为电子行业提供了一可靠的选择。本文将从产品结构、同业对比、成本分析以及品质保障四个方面深入剖析富捷电阻的优势,展现其如何在激烈的市场竞争中脱颖而出。
    的头像 发表于 05-09 10:47 1348次阅读
    <b class='flag-5'>从</b><b class='flag-5'>四个</b>方面深入剖析富捷电阻的优势