0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文详解机器学习是什么

Dbwd_Imgtec 来源:网络整理 作者:工程师陈翠 2018-10-05 08:59 次阅读

数据分析和机器学习

如果你认为大数据仅仅是关于SQL语句查询和海量的数据的话,那么别人也会理解你的,但是大数据真正的目的是通过对数据的推断,从数据中获取价值、从数据中发现有用的东西。例如,“如果我降低5%的价格,我将增加10%的销售量。”

数据分析是重要的技术,包括如下方面:

描述性分析:确定所发生的事情。这通常涉及到描述发生了什么现象的报告。例如,用这个月的销售额与去年同期进行比较的结果。

特征性分析:解释现象发生的原因,这通常涉及使用带有OLAP技术的控制台用以分析和研究数据,根据数据挖掘技术来找到数据之间的相关性。

预测性分析:评估可能发生的事情的概率。这可能是预测性分析被用来根据你的工作性质、个人兴趣爱好,认为你是一个潜在的读者,以便能够链接到其他的人。

机器学习适合于预测性分析。

什么是机器学习

机器学习是人工智能的一个子集,即用机器去学习以前的经验。与传统的编程不同,开发人员需要预测每一个潜在的条件进行编程,一个机器学习的解决方案可以有效地基于数据来适应输出的结果。

一个机器学习的算法并没有真正地编写代码,但它建立了一个关于真实世界的计算机模型,然后通过数据训练模型。

机器学习如何工作?

垃圾邮件过滤是一个很好的例子,它利用机器学习技术来学习如何从数百万封邮件中识别垃圾邮件,其中就用到了统计学技术。

例如,如果每100个电子邮件中的85个,其中包括“便宜”和“ *哥”这两个词的邮件被认为是垃圾邮件,我们可以说有85%的概率,确定它是垃圾邮件。并通过其它几个指标(例如,从来没给你发送过邮件的人)结合起来,利用数十亿个电子邮件进行算法测试,随着训练次数不断增加来提升准确率。

事实上,谷歌表示它现在已经可以拦截99.99%左右的垃圾邮件。

机器学习实例

一般包括以下几个方面:

目标影响:主要针对Google和Facebook的目标广告,基于个人兴趣爱好,并通过Netflix推荐电影,还通过亚马逊推荐购物;

信用评分:银行使用收入数据,从你的居住地、你的年龄和婚姻状况来预测你是否会拖欠贷款;

信用卡欺诈检测:用于根据你之前一些可能的消费习惯,在线禁止具有欺诈行为的信用卡或借记卡的使用;

购物篮分析:根据数以百万个类似顾客的消费习惯,用来预测你更可能使用哪些特殊优惠政策;

在一个有争议的案例:美国零售商对使用了25种不同的健康和化妆品产品的顾客的购物篮进行分析,来成功地预测妇女怀孕,包括非常准确的预产期。然而却事与愿违,当一个年轻女孩的父亲抱怨说,在女儿被怀孕相关的特殊优惠轰炸后,目的就变成了鼓励未成年少女怀孕。

你需要什么

事实上,你是在寻找数据中的关联性,但你需要一些领域的专业知识来验证结果。计算机可以找到一个模式,但是只有专家才能验证它是否具有关联性。

总之,以下是你所需要的:

目标.你正在试图解决的问题。例如,信用卡被盗了吗?股票价格会上涨还是下跌?用户近期最喜欢哪部电影?

大量数据. 例如,为了准确预测房屋的价格,你需要详细列出的历史价格。

专家.你需要一个知道正确答案的领域专家来验证所产生的结果,并确认什么时候模型足够精确。

模式.你在寻找数据中的模式。如果没有模式,你可能会有错误的或者不完整的数据。

机器学习的类型

预测性分析试图基于历史数据来预测未来的结果,最常用的方法被称为监督学习。

机器学习的类型有:

监督学习:当我们需要从过去的数据中知道正确答案的时候,但是还需要预测未来的结果。例如,利用过去的房价来预测当前和未来的价格。有效地使用基于试错的统计改进过程,机器依靠对监督者提供的一组值的测试结果来逐步提高准确性。

无监督学习:这里没有明确的正确答案,但我们想从数据中有新的发现。最常用于对数据进行分类或分组,例如,在Spotify上对音乐分类,来帮助推荐你可能想听的歌曲或是专辑。然后,他们将听众分类,看他们是否更可能愿意听Radiohead或Justin Bieber。

强化学习:不需要一个领域专家,但需要不断地向预定目标前进。这是一种经常部署神经网络的技术,例如, AphaGo在DeepMind中跟自己打了一百万场比赛,最终成为了世界冠军。

机器学习过程

不同于未来通过机器学习下象棋的场景,目前大多数机器学习是相当麻烦的,在下面的图表中进行了说明:

在未来很可能机器学习将会被应用到帮助加快过程,特别是在数据收集和清洗领域,但主要步骤仍然存在以下方面:

定义问题:正如我在另一篇文章中所指出的那样,机器学习总是从一个明确的问题和目标开始;

收集数据:适合的数据的数量和种类越多,机器学习模型就会变得越精确。这些数据可以来自电子表格、文本文件和数据库,除了商业上可用的数据源之外;

准备数据:这包括数据的清理和解析。删除或纠正异常值(失控的错误值);这经常占用总的时间和工作量的60%以上,然后将数据分成两个不同的部分,即练数据和测试数据;

训练模型:针对一组训练数据—用于识别数据中的模式或相关性,或者用于做预测,同时使用重复的测试和误差改进方法来逐步地提高模型的精度;

评估模型:通过比较结果与测试数据集的准确度来评估模型。重要的是不要对用于训练系统的数据进行模型评估,以确保无偏差的和独立的测试;

部署和改进:这可以涉及到尝试完全不同的算法或者收集更多种类或更大数量的数据。例如,你可以通过使用房屋所有者提供的数据来预估今后的房屋升值空间,从而提高房价预测的准确度;

综上所述,大多数机器学习过程实际上是循环的和连续的,因为更多的数据被添加或者情况会有所变化,因为世界从来不会静止不动,并且总是有改进和提高的空间。

总结

下图说明了机器学习系统所使用的关键策略:

总之,任何机器学习系统的关键部分就是数据。考虑到额外的算法、巧妙的编程和大量的更精确的数据的选择,大数据每次都是胜利者。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8095

    浏览量

    130519

原文标题:通俗的机器学习介绍

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一文详解机器学习和深度学习的区别

    深度学习这几年特别火,就像5年前的大数据一样,不过深度学习其主要还是属于机器学习的范畴领域内,所以这篇文章里面我们来唠一唠机器
    发表于 09-06 12:48 1314次阅读
    一文<b class='flag-5'>详解</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>的区别

    NE555中资料详解

    NE555中资料详解
    发表于 08-21 09:27

    NE555中资料详解

    NE555中资料详解
    发表于 11-23 22:08

    FAT32件系统详解

    FAT32件系统详解
    发表于 08-17 12:34

    介绍机器学习的基础内容

    参考右边的帮助文档文章目录嵌入式系统之硬件总复习前言、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开
    发表于 12-16 06:27

    什么是机器学习? 机器学习基础入门

    本文旨在为硬件和嵌入式工程师提供机器学习(ML)的背景,它是什么,它是如何工作的,它为什么重要,以及 TinyML 是如何适应的机器学习
    发表于 06-21 11:06

    一文详解机器学习工程师必知的10大算法

    毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的。一些最常见的
    的头像 发表于 07-08 11:05 1569次阅读
    一文<b class='flag-5'>详解</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>工程师必知的10大算法

    详解机器学习平台的整体架构

    近日,第三届国际人工智能与大数据高峰论坛在北京国家会议中心召开,本届峰会聚焦于前沿人工智能技术与产业应用。 作为人工智能行业领军人物,第四范式联合创始人、首席架构师胡时伟受邀出席大会,并以大规模机器
    发表于 09-22 17:43 2次下载

    详解机器学习算法流形学习

    流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空间中的结构。
    的头像 发表于 02-02 15:40 6569次阅读

    详解机器学习分类算法KNN

    本文主要介绍一个被广泛使用的机器学习分类算法,K-nearest neighbors(KNN),中文叫K近邻算法。
    的头像 发表于 10-31 17:18 5692次阅读

    详解机器学习和深度学习常见的正则化

    说到正则化大家应该都不陌生,这个在机器学习和深度学习中都是非常常见的,常用的正则化有L1正则化和L2正则化。提到正则化大家就会想到是它会将权重添加到损失函数计算中来降低模型过拟合的程度。了解更多
    的头像 发表于 01-29 17:52 1976次阅读
    <b class='flag-5'>详解</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>常见的正则化

    详解机器学习决策树的优缺点

    决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
    的头像 发表于 01-19 17:06 7410次阅读

    详解机器学习中的现状,算法,应用

    机器学习是一门多领域交叉学科,廊括众多:涉及到概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
    发表于 07-28 09:04 2956次阅读

    详解机器学习在铁路缺陷检测中的实际应用

    本文介绍了在铁轨的超声波检测过程中有效使用机器学习技术自动检测缺陷的经验,并提出了一种使用数学建模为神经网络创建训练数据集的有效方法,为实际缺陷图的识别提供了更高精度的指标。
    的头像 发表于 05-02 17:26 2223次阅读
    <b class='flag-5'>详解</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>在铁路缺陷检测中的实际应用

    一文详解机器学习中的梯度提升机

    AdaBoost(自适应增强)是机器学习历史上第一个将各种弱分类器组合成单个强分类器的增强算法。它主要致力于解决二元分类等分类任务。
    发表于 12-19 14:24 208次阅读
    一文<b class='flag-5'>详解</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的梯度提升机