张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

工业大数据挖掘的利器——Spark MLlib

格创东智 2019-01-10 13:40 次阅读

格物汇之前刊发的《工业大数据处理领域的“网红”——Apache Spark》中提到,在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。Spark有一个机器学习组件是专门用于解决海量数据如何进行高效数据挖掘的问题,那就是SparkMLlib组件。今天的格物汇就给大家详细介绍一下Spark MLlib。

Spark MLlip 天生适合迭代计算

在介绍Spark MLlib 这个组件前,我们先了解一下机器学习的定义。在维基百科中对机器学习给出如下定义:

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

很明显,机器学习的重点之一就是“经验”,对于计算机而言,经验就是需要进行多次迭代计算得到的,Spark 的基于内存的计算模式天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说Spark正是机器学习的理想的平台。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较,如图下图所示。

Spark MLlib 算法以及功能

MLlib由一些通用的学习算法以及工具组成,其中包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体主要包含以下内容:

>>>>

回归(Regression)

线性回归(Linear

广义线性回归(Generalized Linear)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

Survival

Isotonic

>>>>

分类(Classification)

  逻辑回归(Logistic,二分类和多酚类)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

多层反馈(Multilayer Perceptron)

支持向量机(Linear support vector machine)

One-vs-All

朴素贝叶斯(Naive Bayes)

>>>>

聚类(Clustering)

  K-means

隐含狄利克雷分布(LDA)

BisectingK-means

高斯混合模型(Gaussian Mixture Model)

  协同过滤(Collaborative Filtering)

>>>>

特征工程(Featurization)

特征工程(Featurization)

特征提取

转换

降维(Dimensionality reduction)

筛选(Selection)

>>>>

管道(Pipelines)

组合管道(Composing Pipelines)

构建、评估和调优(Tuning)机器学习管道

>>>>

持久化(Persistence)

保存算法,模型和管道到持久化存储器,以备后续使用

从持久化存储器载入算法、模型和管道

>>>>

实用工具(Utilities)

线性代数(Linear algebra)

统计

数据处理

其他

综上可见,Spark在机器学习上发展还是比较快的,目前已经支持了主流的统计和机器学习算法。

Spark MLlib API 变迁

Spark MLlib 组件从Spark 1.2版本以后就出现了两套机器学习API:

spark.mllib基于RDD的机器学习API,是Spark最开始的机器学习API,在Spark1.0以前的版本就已经存在的了。

spark.ml提供了基于DataFrame 高层次的API,引入了PipLine,可以向用户提供一个基于DataFrame的机器学习流式API套件

Spark 2.0 版本开始,spark mllib就进入了维护模式,不再进行更新,后续等spark.ml API 足够成熟并足以取代spark.mllib 的时候就弃用。

那为什么Spark要将基于RDD的API 切换成基于DataFrame的API呢?原因有以下三点:

首先相比spark.mllib,spark.ml的API更加通用和灵活,对用户更加友好,并且spark.ml在DataFrame上的抽象级别更高,数据与操作的耦合度更低;

spark.ml中无论是什么模型,都提供了统一的算法操作接口,例如模型训练就调用fit方法,不行spark.mllib中不同模型会有各种各样的trainXXX;

受scikit-learn 的Pipline概念启发,spark.ml引入pipeline, 跟sklearn,这样可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来,使得工作流变得更加容易。

如今工业互联网飞速发展,企业内部往往存储着TB级别甚至更大的数据,面对海量数据的难以进行有效快速的进行数据挖掘等难题,Spark提供了MLlib 这个组件,通过利用了Spark 的内存计算和适合迭代型计算的优势,并且提供用户友好的API,使用户能够轻松快速的应对海量数据挖掘的问题,加快工业大数据的价值变现。作为TCL集团孵化的创新型科技公司,格创东智正在致力于深度融合包括Spark在内的大数据、人工智能、云计算等前沿技术与制造行业经验,打造行业领先的“制造x”工业互联网平台。随着未来Spark社区在AI领域的不断发力,相信Spark MLlib组件的表现会越来越出色。

本文作者:格创东智大数据工程师黄欢(转载请注明作者及来源)

收藏 人收藏
分享:

评论

相关推荐

Spark基础及源码分析视频

    本视频面向拥有Java语言基础的同学,以Java语言为蓝本,深入浅出的讲解scala语言的语
发表于 09-26 00:00 36115次 阅读
Spark基础及源码分析视频

呼应智能制造发展需求,台达发布多款工业自动化新品

“近年来,台达已将智能制造的理念和实践充分落实到各行业领域的用户当中,并结合深厚产业know-how....
发表于 08-25 08:55 22次 阅读
呼应智能制造发展需求,台达发布多款工业自动化新品

潘云鹤院士:人工智能2.0和工业经济深度融合的智能化发展

近日,在2019中国(杭州)工业互联网大会,中国工程院院士、浙江大学教授潘云鹤发表《AI2.0和工业....
发表于 08-25 08:42 21次 阅读
潘云鹤院士:人工智能2.0和工业经济深度融合的智能化发展

李振华:推动服务机器人产能共享,促进产业发展

随着科技的发展以及深度学习技术的成熟,机器人技术正快速拓展至人类生活的各个方面,医疗机器人、特种机器....
发表于 08-25 08:33 28次 阅读
李振华:推动服务机器人产能共享,促进产业发展

汽车智能制造的新模式

不知什么时候开始,当孩子还在蹒跚学步的时候,积木已经被列入家庭购物清单,且同时肩负着许多“对孩子有益....
发表于 08-25 08:10 38次 阅读
汽车智能制造的新模式

5G时代的挑战非常严峻最严重的挑战还没到来

“在互联网时代,我们主要防止数据被破坏、被泄漏和网络瘫痪;在网络空间安全时代,安全目标是包含设施、数....
发表于 08-24 09:46 30次 阅读
5G时代的挑战非常严峻最严重的挑战还没到来

智能驾驶、智能制造、智慧出行“发力”

上汽大通C2B智能制造,由车型的开发阶段开始,就让用户深度参与全过程,从预测发布、用户下单、计划排产....
的头像 倩倩 发表于 08-24 09:23 228次 阅读
智能驾驶、智能制造、智慧出行“发力”

我国提出了自己的制造业转型升级道路让信息化和工业化融合

中国提出了自己的制造业转型升级道路,即走信息化和工业化融合,以信息化带动工业化,用信息技术的引领促进....
发表于 08-23 16:24 30次 阅读
我国提出了自己的制造业转型升级道路让信息化和工业化融合

工控机比普通计算机更有优势的原因是什么

工业大数据作为行业转型的关键,对其有效利用、管理,也一定程度上决定了企业是否能够真正转型。正因为如此....
发表于 08-23 11:41 26次 阅读
工控机比普通计算机更有优势的原因是什么

2023年光子学市场规模将达到7804亿美元

市场研究公司MarketsandMarkets的一份最新报告预计,到2023年,全球光子学市场的规模....
的头像 墨记 发表于 08-23 10:25 2015次 阅读
2023年光子学市场规模将达到7804亿美元

中国联通已在国内17个城市开展了5G试点覆盖11行业100多场景

业内预测,2025年之前,工业互联网每年可产生收入将达到1.1万亿以上,我国工业互联网有望达到480....
发表于 08-23 10:24 104次 阅读
中国联通已在国内17个城市开展了5G试点覆盖11行业100多场景

5G是一把双刃剑具有正反两面性安全问题不可忽视

众所周知,5G网络可以实现海量互联、计算与通信的融合,同时,基于大数据、人工智能等技术的网络运维可以....
发表于 08-23 09:42 253次 阅读
5G是一把双刃剑具有正反两面性安全问题不可忽视

5G与工业互联网融合发展机遇与挑战并存安全问题不容忽视

工信部总经济师王新哲强调,大力发展工业互联网是促进新一代信息技术与实体经济融合创新、推进传统产业改造....
发表于 08-23 09:39 42次 阅读
5G与工业互联网融合发展机遇与挑战并存安全问题不容忽视

5G网络在智能制造应用中还将会面临哪些挑战

在智能制造自动化控制系统中,低时延的应用尤为广泛,比如对环境敏感高精度的生产制造环节、化学危险品生产....
发表于 08-23 08:53 21次 阅读
5G网络在智能制造应用中还将会面临哪些挑战

富士康的工业互联网战略近期以来发展如何

据官方信息,报告期内公司营业总收入为1,705.08 亿元,同比增长 7.24%,而包括5G在内的云....
发表于 08-23 08:44 41次 阅读
富士康的工业互联网战略近期以来发展如何

中国发展5G是国内经济社会发展的客观要求

发展5G是我国传统产业转型升级的客观要求。我国有数量庞大的传统产业,随着要素成本的上升,这些产业面临....
的头像 倩倩 发表于 08-22 15:39 228次 阅读
中国发展5G是国内经济社会发展的客观要求

5G、工业互联网的应用将为机器人产业带来新机遇

工信部副部长辛国斌表示,柔性制造需求、新兴市场涌现、创新技术发展等都将拓展机器人的应用领域和发展空间....
的头像 倩倩 发表于 08-22 15:31 297次 阅读
5G、工业互联网的应用将为机器人产业带来新机遇

市场需求将推动我国服务机器人产业快速发展

2019年上半年,我国机器人市场规模为42.5亿美元,占比全球机器人市场接近三成,业内预计全年市场规....
发表于 08-22 09:41 32次 阅读
市场需求将推动我国服务机器人产业快速发展

5G是实现万物互联的关键设施是经济社会数字化转型的驱动力量

一方面5G采用虚拟化、开放化软件定义的网络架构,云环境、开放协议可能引入新的安全风险。另一方面5G网....
发表于 08-22 09:22 34次 阅读
5G是实现万物互联的关键设施是经济社会数字化转型的驱动力量

陈肇雄表示加快网络安全产业发展对实现经济高质量发展具有重要作用

陈肇雄强调,面对网络安全新形势、新挑战,我们要坚持以习近平新时代中国特色社会主义思想为指导,坚持总体....
发表于 08-22 08:34 60次 阅读
陈肇雄表示加快网络安全产业发展对实现经济高质量发展具有重要作用

Spark job是怎么被调度执行的

Spark job 的执行流程简介
发表于 08-22 08:24 22次 阅读
Spark job是怎么被调度执行的

我国工业机器人产业将迎来快速增长

今年上半年我国的工业机器人市场在行业连续多年高速增长的情况下出现了回落,如汽车、3C等行业在有所下降....
发表于 08-21 15:55 39次 阅读
我国工业机器人产业将迎来快速增长

智能制造为中国制造业高质量发展提供历史性的机遇

“变”,就是机遇。新一代人工智能技术与先进制造技术深度融合所形成的新一代智能制造技术,成为了新一轮工....
发表于 08-21 15:29 35次 阅读
智能制造为中国制造业高质量发展提供历史性的机遇

传统制造业企业要推行智能制造必须要有针对性的进行改善

让我们把视线转向国内。目前,我国制造业正处于发展的关键时期,大规模的机器换人趋势已经显现。由物联网、....
发表于 08-21 15:25 42次 阅读
传统制造业企业要推行智能制造必须要有针对性的进行改善

服务型制造业已经成为了我国整个制造业产业发展的一大趋势

正如工信部一位负责人在书面讲话中所指出的那样,当今世界正面临着百年未有之大变局,中国经济正由高速增长....
发表于 08-21 15:19 33次 阅读
服务型制造业已经成为了我国整个制造业产业发展的一大趋势

Spark的History服务实现步骤

Spark配置History服务
发表于 08-21 14:23 22次 阅读
Spark的History服务实现步骤

安徽人工智能产业如何打造?多位省政协委员给出答案

省政协委员,合肥市政协主席韩冰认为,我省人工智能产业发展是由智能语音、机器人等单点技术带动,由此造成....
的头像 倩倩 发表于 08-21 11:27 416次 阅读
安徽人工智能产业如何打造?多位省政协委员给出答案

世界人工智能大会的最高荣誉“SAIL奖”全球品牌推广宣布启动

据了解,论坛主办单位普陀区近年来积极抓住人工智能产业发展的重大契机,不断推进和布局人工智能产业。积极....
的头像 倩倩 发表于 08-21 11:24 224次 阅读
世界人工智能大会的最高荣誉“SAIL奖”全球品牌推广宣布启动

机器人将带来中国建筑业发展的一个新风口

为了突破瓶颈,全球建筑行业已纷纷将目光聚焦到机器人身上。全自动砌砖机器人“哈德良”原型由澳大利亚工程....
发表于 08-21 09:46 49次 阅读
机器人将带来中国建筑业发展的一个新风口

国内首个工控安全设备认证出炉 天地和兴工控防火墙HX-SFW通过IPv6认证

天地和兴工控防火墙HX-SFW是专为工业环境打造的一款边界安全防护产品,适用于IPv4和IPv6环境....
发表于 08-21 08:44 44次 阅读
国内首个工控安全设备认证出炉  天地和兴工控防火墙HX-SFW通过IPv6认证

工业控制领域中视觉系统的应用

随着制造业的大发展,工业机器人产业市场也在逐步的扩大,越来越多的企业的生产离不开工业机器人,作为企业....
发表于 08-20 17:23 33次 阅读
工业控制领域中视觉系统的应用

全球机器人的市场规模逐年扩大

近年来,全球机器人产业在基础技术、市场规模、企业智能化转型方面持续提升。2018年全球市场规模达到2....
发表于 08-20 15:19 42次 阅读
全球机器人的市场规模逐年扩大

人工智能融入市民日常生活,多个人工智能项目落地福州

从第一代的人工智能对话机器人到今年的第七代产品,“小冰”已发展成以情感计算为核心的完整人工智能框架。....
的头像 倩倩 发表于 08-20 14:23 200次 阅读
人工智能融入市民日常生活,多个人工智能项目落地福州

5G技术下工业自动化控制的新模式

作为新一代移动通信技术,5G技术切合了传统制造企业智能制造转型对无线网络的应用需求,能满足工业环境下....
发表于 08-20 11:32 75次 阅读
5G技术下工业自动化控制的新模式

徐汇区在上海人工智能产业布局中扮演什么样的角色?

上海市人工智能产业规划在空间布局上以“人型”为主,主要分布在8个区域、11个行业。其中。徐汇区主要发....
的头像 倩倩 发表于 08-20 11:16 255次 阅读
徐汇区在上海人工智能产业布局中扮演什么样的角色?

工信部杨宇燕对维护网络安全工作问题提出了三点思考

杨宇燕指出,维护网络安全是全社会的共同责任,需要政府、企业、社会组织、广大网民共同参与,齐心协力,攻....
发表于 08-20 09:19 39次 阅读
工信部杨宇燕对维护网络安全工作问题提出了三点思考

5G的安全是一把双刃剑安全问题已经日益严峻

随着5G时代,万物互联时代到来,新形势下的安全问题也日益严峻。“5G的安全是一把双刃剑”邬贺铨指出,....
发表于 08-20 08:36 112次 阅读
5G的安全是一把双刃剑安全问题已经日益严峻

全球制造业自动化控制效率已得到大幅的提升

报道称,美国制造业使用机器人的比例在过去20年里提升了两倍多,世界其他地方也翻了一番,取代了某些类别....
发表于 08-19 17:24 99次 阅读
全球制造业自动化控制效率已得到大幅的提升

2022年全球智能制造市场规模将逼近3700亿美元,年复合成长率达10.7%

根据集邦咨询旗下拓墣产业研究院预估,2022年全球智能制造的市场规模将会逼近3700亿美元,年复合成....
的头像 章鹰 发表于 08-19 14:11 3041次 阅读
2022年全球智能制造市场规模将逼近3700亿美元,年复合成长率达10.7%

广州全面加快5G发展2019年将会完成不低于2万座5G基站的部署

广州将全面推进广州在5G发展上走在全国前列,提升5G产业链协同创新与集聚发展能力,促进5G与城市建设....
发表于 08-18 09:45 98次 阅读
广州全面加快5G发展2019年将会完成不低于2万座5G基站的部署

人工智能让制造变得更加智能

2016年对于人工智能来说是一个“里程碑”式的年份。年初,AlphaGo大胜围棋九段李世石,让近10....
发表于 08-17 10:07 89次 阅读
人工智能让制造变得更加智能

我国工业控制的发展将面临着什么样的挑战

近年来我国机器人产业取得了令人瞩目的成就。人机协作机器人、云智能机器人等工业机器人新品不断涌现,机器....
发表于 08-16 17:26 40次 阅读
我国工业控制的发展将面临着什么样的挑战

AI与工业互联网的碰撞会擦出怎样的火花

企业在应用工业互联网的时候,对数据的智能化分析以及决策优化的需求越来越高。在这个过程中,工业互联网与....
发表于 08-16 15:57 173次 阅读
AI与工业互联网的碰撞会擦出怎样的火花

汽车行业变革会引发工业机器人市场怎样的变化

随着世界环保意识的不断普及,汽车行业再向新能源的方向发展。在我国新能源汽车已经完成了从锂电、驱动等核....
发表于 08-16 15:27 37次 阅读
汽车行业变革会引发工业机器人市场怎样的变化

人工智能将以什么样的方式来变革制造业

IDC数据显示,到2021年,20%的领先制造企业将通过嵌入式智能、人工智能、物联网和区块链等技术实....
发表于 08-16 10:07 53次 阅读
人工智能将以什么样的方式来变革制造业

5G的到来将为制造业转型升级带来历史性的发展机遇

柔性生产线可以根据订单的变化灵活调整产品生产任务,是实现多样化、个性化、定制化生产的关键依托。在传统....
发表于 08-16 09:20 76次 阅读
5G的到来将为制造业转型升级带来历史性的发展机遇

工业互联网的核心是什么

工业互联网标识解析体系,是实现工业全要素、各环节信息互通的关键枢纽。通过给每一个对象赋予标识,并借助....
发表于 08-15 17:56 65次 阅读
工业互联网的核心是什么

智能制造和工业自动化控制有怎样的关系

工业自动化,字面上的意思是很容易理解的,就是在工业生产中广泛采用自动控制、自动调整装置,用以代替人工....
发表于 08-15 17:26 66次 阅读
智能制造和工业自动化控制有怎样的关系

智能制造为工业自动化控制注入活力

随着工业自动化在智能制造的进程中不断深化,“智能光制造”作为一项综合生产力,融合了激光、自动化、机器....
发表于 08-15 17:23 71次 阅读
智能制造为工业自动化控制注入活力

如何在物联网时代创造新的游戏规则

物联网时代与互联网时代的一大差异在于,用户需要情景感知、个性化定制的体验迭代。互联网时代依靠品牌与平....
发表于 08-15 16:01 397次 阅读
如何在物联网时代创造新的游戏规则

三个特征决定IIoT的特殊性

工业互联网是实现智能制造的抓手,推动工业互联网是长期的工作。
的头像 人工智能学家 发表于 08-15 11:19 202次 阅读
三个特征决定IIoT的特殊性

工信部王新哲表示大力推进制造强国和网络强国建设需要做好五个方面

王新哲表示,作为产业发展主管部门,工业和信息化部将深入贯彻落实党中央、国务院的决策部署,加快发展工业....
发表于 08-15 09:09 139次 阅读
工信部王新哲表示大力推进制造强国和网络强国建设需要做好五个方面

spark是什么?

Spark Streaming高级特性在NDCG计算实践
发表于 08-01 10:16 33次 阅读
spark是什么?

Spark应用程序的日志输出级别怎么设置

Spark应用程序中设置日志输出级别
发表于 07-31 14:05 35次 阅读
Spark应用程序的日志输出级别怎么设置

Spark应用程序资源分配过程之间的调度

Spark应用程序之间调度
发表于 07-18 06:43 81次 阅读
Spark应用程序资源分配过程之间的调度

Spark版本升级流程概述

Spark版本升级二三事
发表于 07-16 12:00 61次 阅读
Spark版本升级流程概述

SparkContext的初始化流程

spark 内核源码剖析四:SparkContext初始化
发表于 07-11 13:46 61次 阅读
SparkContext的初始化流程

Spark Core整合实现思路

Spark SQL(十一):与Spark Core整合
发表于 07-05 15:21 100次 阅读
Spark Core整合实现思路

Spark架构图名词解析

Spark核心概念名词
发表于 07-05 06:59 45次 阅读
Spark架构图名词解析

Spark的基本工作原理与RDD

spark 基础一:基本工作原理与RDD
发表于 07-04 16:18 56次 阅读
Spark的基本工作原理与RDD