【四旋翼飞行器】76小时吃透四轴算法!史上最强软硬结合实战项目,👉戳此立抢👈

工业大数据挖掘的利器——Spark MLlib

格创东智 2019-01-10 13:40 次阅读

格物汇之前刊发的《工业大数据处理领域的“网红”——Apache Spark》中提到,在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。Spark有一个机器学习组件是专门用于解决海量数据如何进行高效数据挖掘的问题,那就是SparkMLlib组件。今天的格物汇就给大家详细介绍一下Spark MLlib。

Spark MLlip 天生适合迭代计算

在介绍Spark MLlib 这个组件前,我们先了解一下机器学习的定义。在维基百科中对机器学习给出如下定义:

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

很明显,机器学习的重点之一就是“经验”,对于计算机而言,经验就是需要进行多次迭代计算得到的,Spark 的基于内存的计算模式天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说Spark正是机器学习的理想的平台。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较,如图下图所示。

Spark MLlib 算法以及功能

MLlib由一些通用的学习算法以及工具组成,其中包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体主要包含以下内容:

>>>>

回归(Regression)

线性回归(Linear

广义线性回归(Generalized Linear)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

Survival

Isotonic

>>>>

分类(Classification)

  逻辑回归(Logistic,二分类和多酚类)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

多层反馈(Multilayer Perceptron)

支持向量机(Linear support vector machine)

One-vs-All

朴素贝叶斯(Naive Bayes)

>>>>

聚类(Clustering)

  K-means

隐含狄利克雷分布(LDA)

BisectingK-means

高斯混合模型(Gaussian Mixture Model)

  协同过滤(Collaborative Filtering)

>>>>

特征工程(Featurization)

特征工程(Featurization)

特征提取

转换

降维(Dimensionality reduction)

筛选(Selection)

>>>>

管道(Pipelines)

组合管道(Composing Pipelines)

构建、评估和调优(Tuning)机器学习管道

>>>>

持久化(Persistence)

保存算法,模型和管道到持久化存储器,以备后续使用

从持久化存储器载入算法、模型和管道

>>>>

实用工具(Utilities)

线性代数(Linear algebra)

统计

数据处理

其他

综上可见,Spark在机器学习上发展还是比较快的,目前已经支持了主流的统计和机器学习算法。

Spark MLlib API 变迁

Spark MLlib 组件从Spark 1.2版本以后就出现了两套机器学习API:

spark.mllib基于RDD的机器学习API,是Spark最开始的机器学习API,在Spark1.0以前的版本就已经存在的了。

spark.ml提供了基于DataFrame 高层次的API,引入了PipLine,可以向用户提供一个基于DataFrame的机器学习流式API套件。

Spark 2.0 版本开始,spark mllib就进入了维护模式,不再进行更新,后续等spark.ml API 足够成熟并足以取代spark.mllib 的时候就弃用。

那为什么Spark要将基于RDD的API 切换成基于DataFrame的API呢?原因有以下三点:

首先相比spark.mllib,spark.ml的API更加通用和灵活,对用户更加友好,并且spark.ml在DataFrame上的抽象级别更高,数据与操作的耦合度更低;

spark.ml中无论是什么模型,都提供了统一的算法操作接口,例如模型训练就调用fit方法,不行spark.mllib中不同模型会有各种各样的trainXXX;

受scikit-learn 的Pipline概念启发,spark.ml引入pipeline, 跟sklearn,这样可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来,使得工作流变得更加容易。

如今工业互联网飞速发展,企业内部往往存储着TB级别甚至更大的数据,面对海量数据的难以进行有效快速的进行数据挖掘等难题,Spark提供了MLlib 这个组件,通过利用了Spark 的内存计算和适合迭代型计算的优势,并且提供用户友好的API,使用户能够轻松快速的应对海量数据挖掘的问题,加快工业大数据的价值变现。作为TCL集团孵化的创新型科技公司,格创东智正在致力于深度融合包括Spark在内的大数据、人工智能、云计算等前沿技术与制造行业经验,打造行业领先的“制造x”工业互联网平台。随着未来Spark社区在AI领域的不断发力,相信Spark MLlib组件的表现会越来越出色。

本文作者:格创东智大数据工程师黄欢(转载请注明作者及来源)

收藏 人收藏
分享:

评论

相关推荐

工业互联网架构2.0体系正在制定

工业互联网产业正快速发展,我国的工业互联网架构2.0体系正在制定之中,将会融入新的技术,进一步丰富、....
的头像 OFweek工控 发表于 01-18 17:04 162次 阅读
工业互联网架构2.0体系正在制定

把AI带入”百年老店“,他打造”数字孪生“

如今,通用电气在软件上投入了超过 10 亿美元,并建立了一个由 1.4 万名软件工程师和科学家组成的....
的头像 电子发烧友网工程师 发表于 01-18 16:06 101次 阅读
把AI带入”百年老店“,他打造”数字孪生“

探究全球工业互联网的应用现状

工业互联网作为新一代信息技术与制造业深度融合的产物,受到业界高度关注。然而现实情况是全球工业互联网正....
的头像 PCB开门网 发表于 01-18 11:15 187次 阅读
探究全球工业互联网的应用现状

盘点2019中国智能制造发展的十大关键

2018年,随着我国政府相关扶持政策的出台,加上制造业智能化进程的推进,我国智能制造产业现今呈现出高....
的头像 电子发烧友网工程师 发表于 01-18 09:43 222次 阅读
盘点2019中国智能制造发展的十大关键

中国通信标准化协会总结2018年CCSA标准化工作,研究部署了2019年重点任务

过去的2018年,在中国通信标准化协会、各会员单位的共同努力下,信息通信行业标准体系不断完善、技术水....
的头像 C114通信网 发表于 01-17 16:25 159次 阅读
中国通信标准化协会总结2018年CCSA标准化工作,研究部署了2019年重点任务

0glass进入工业互联网及智能装备领域TOP10

0glass专注于智能眼镜和增强现实核心技术与产品研发,并应用于工业领域的高科技公司。
的头像 AR工业应用 发表于 01-17 14:49 248次 阅读
0glass进入工业互联网及智能装备领域TOP10

2019-2020年我国将完成5G部署的重点标准分批任务

2018年,申报国家标准84项、行业标准451项、协会标准27项、研究课题79项立项。经主管部门批准....
发表于 01-17 09:45 38次 阅读
2019-2020年我国将完成5G部署的重点标准分批任务

2025年智能与制造业的深度融合将催生数个十万亿级产业

日前,工信部部长苗圩在接受媒体专访时透露出明确信号,包括进一步降低制造业增值税税率、实施新一轮重大技....
发表于 01-17 08:49 54次 阅读
2025年智能与制造业的深度融合将催生数个十万亿级产业

全球制造企业正面临转型难题灯塔工厂表示愿意敞开大门分享成功经验

世界经济论坛宣布,“制造业灯塔工厂”网络迎来7名新成员,加上2018年公布的9家“灯塔工厂”,目前全....
发表于 01-17 08:45 25次 阅读
全球制造企业正面临转型难题灯塔工厂表示愿意敞开大门分享成功经验

中国智能制造的机遇与突破

罗克韦尔自动化大中华区迎来首位华裔总裁——石安先生的上任,这对于进入中国市场三十年的工业自动化与信息....
发表于 01-17 08:41 25次 阅读
中国智能制造的机遇与突破

什么是智能制造在工业中又扮演着怎样的角色

当下对于智能制造的讨论多数聚焦于技术之实现,标榜智能制造产线,多是以局部看全局,而另一方面,为了智能....
发表于 01-17 08:37 58次 阅读
什么是智能制造在工业中又扮演着怎样的角色

智能制造三架马车 机器人的应用与未来发展方向

1月10日,由中国机电一体化技术应用协会、北京理工大学智能机器人与系统高精尖创新中心、中关村智友天使....
的头像 人工智能学家 发表于 01-16 16:55 487次 阅读
智能制造三架马车 机器人的应用与未来发展方向

2019中国各地智能制造政策汇总

智能制造行业作为中国制造业的主要驱动力之一,利好政策的不断出台,行业将持续稳定增长,中国制造业中所起....
的头像 联动原素 发表于 01-16 16:02 462次 阅读
2019中国各地智能制造政策汇总

全球工联网应用现状究竟怎么样?哪些企业现在需要工业互联网?

目前应用最广泛的是对生产过程进行控制和优化(37%)。应用集中在提高生产自动化、减少人工作业、自动物....
的头像 智能制造 发表于 01-16 14:51 428次 阅读
全球工联网应用现状究竟怎么样?哪些企业现在需要工业互联网?

探讨制造业智能化的发展史

中国这几年信息化的发展已经出现很多概念和热点,从云计算到物联网,智慧城市到大数据,到现在的人工智能这....
的头像 电子发烧友网工程师 发表于 01-16 08:44 277次 阅读
探讨制造业智能化的发展史

中国各地智能制造政策汇总

智能制造行业作为中国制造业的主要驱动力之一,利好政策的不断出台,行业将持续稳定增长,中国制造业中所起....
的头像 工业4俱乐部 发表于 01-15 16:47 508次 阅读
中国各地智能制造政策汇总

上层AI多用于长期规划 边缘运算效益可快速浮现

工业物联网不仅成为核心架构,更会与AI(人工智能)结合,落实智能化愿景。
的头像 物联网技术 发表于 01-15 15:30 170次 阅读
上层AI多用于长期规划 边缘运算效益可快速浮现

2019年中国智能制造将迎十大发展趋势

随着智能制造领域政策的持续出台,中国制造业逐渐向智能制造方向转型,并开始大量应用云计算、大数据、机器....
的头像 电子发烧友网工程师 发表于 01-15 15:04 600次 阅读
2019年中国智能制造将迎十大发展趋势

从制造到“智能制造”政策视野中的制造业升级

现实中智能制造的发展与政策呼应。随着制造业与信息化的融合,制造业逐渐数字化,越来越多的数据得以汇聚在....
的头像 电子发烧友网工程师 发表于 01-15 14:59 399次 阅读
从制造到“智能制造”政策视野中的制造业升级

探讨2019工业互联网发展前景

2018年是“工业互联网”大潮兴起的一年。紫光集团召开紫光云大会,中联重科发布了“智联万物,云领未来....
的头像 智能制造 发表于 01-15 14:21 965次 阅读
探讨2019工业互联网发展前景

2019年我国将加快5G商用的步伐

连维良指出“建设”重点是五个方面,一是加强新型基础设施建设,推进人工智能、工业互联网、物联网等建设,....
发表于 01-15 08:47 67次 阅读
2019年我国将加快5G商用的步伐

智能制造风口正盛 如何提升安全性降低成本

改革春风吹满面,工业行业迎来了改变历史的几年。智能制造作为整个全球工业硬核技术的集成,能够为各个国家....
的头像 OFweek工控 发表于 01-14 09:01 341次 阅读
智能制造风口正盛 如何提升安全性降低成本

智能制造技术催生产业模式的变革主要体现在三方面

据上海羿歌所了解,相对已进入再工业化阶段的发达国家,工业虽然是中国经济的主导产业,但大而不强的特征很....
发表于 01-14 08:58 320次 阅读
智能制造技术催生产业模式的变革主要体现在三方面

贝加莱柔性制造业将引领智能制造新时代

贝加莱大中华区总裁肖维荣博士首先分享“柔性制造时代的制造业升级”,他谈到制造业的挑战在于快速变化的消....
发表于 01-14 08:53 64次 阅读
贝加莱柔性制造业将引领智能制造新时代

我国各省市相继推进政策加快智能制造行业对地区经济的贡献

智能制造是指基于新一代信息通信技术与先进制造技术深度融合,贯穿于设计、生产、管理、服务等制造活动的各....
发表于 01-14 08:49 338次 阅读
我国各省市相继推进政策加快智能制造行业对地区经济的贡献

软件与制造业融合将成为制造业高质量发展的重要途径

智能制造是基于新一代信息通信技术与先进制造技术深度融合,贯穿于设计、生产、管理、服务等制造活动的各个....
发表于 01-14 08:46 82次 阅读
软件与制造业融合将成为制造业高质量发展的重要途径

中国高铁和谐号问世全面实现中国制造业智能化的中心思想

从“和谐号”到“复兴号”,中国高铁一再刷新国内甚至世界高铁技术的记录。比如,和谐号高达380公里的时....
发表于 01-14 08:43 502次 阅读
中国高铁和谐号问世全面实现中国制造业智能化的中心思想

2022年全球3D打印支出将接近227亿美元年复合增长率达19.1%

据国际数据公司IDC最新的研究报告显示,2019年全球3D打印支出(包括硬件、材料、软件和服务)将达....
发表于 01-14 08:38 59次 阅读
2022年全球3D打印支出将接近227亿美元年复合增长率达19.1%

我国将把3D打印列为加快我国实现智能制造的重要技术手段

为了顺利实现向高精尖模式的蜕变,以工业4.0为导向的转型升级已经成为中国实现智能制造的重要路径。而作....
发表于 01-14 08:36 581次 阅读
我国将把3D打印列为加快我国实现智能制造的重要技术手段

地方政府如何支持半导体产业发展

在半导体产业发展的大潮中,地方政府扮演了重要的角色,尤其是在制造和封装等重资产行业。
的头像 传感器与物联网 发表于 01-11 16:30 913次 阅读
地方政府如何支持半导体产业发展

回顾2018年世界主要国家的科技发展

智能制造在汽车工业的应用是德国工业4.0战略的重要领域,2018年在联邦教研部的资助下,学院、科研院....
的头像 中国人工智能学会 发表于 01-11 15:58 1953次 阅读
回顾2018年世界主要国家的科技发展

机器视觉市场的发展动力发生深刻的转变

全球机器视觉市场仍然处在一个稳健快速的成长阶段。根据BCC Research的预测,2018年全球机....
的头像 安富利 发表于 01-11 15:00 605次 阅读
机器视觉市场的发展动力发生深刻的转变

探析2019中国机器人产业发展趋势

近年来,随着全球人口红利的日益减少,自动化生产需求的不断释放,机器人产业发展迎来了巨大爆发,不少国家....
的头像 国联视讯工业机器人信息服务 发表于 01-11 14:30 315次 阅读
探析2019中国机器人产业发展趋势

服装行业的首个工业互联网平台

汉帛国际总裁高敏宣布已与富士康达成合作,将富士康的柔性生产与智能制造能力导入汉帛生产体系。自10月起....
的头像 OFweek工控 发表于 01-11 11:01 542次 阅读
服装行业的首个工业互联网平台

盘点2019中国智能制造的十大发展关键点

2018年,随着我国政府相关扶持政策的出台,加上制造业智能化进程的推进,我国智能制造产业现今呈现出高....
的头像 智能制造 发表于 01-11 09:43 506次 阅读
盘点2019中国智能制造的十大发展关键点

2019年多产业融合将大势所趋移动转售业务发展将迎来新的机遇

2018年国内移动转售业务迎来正式商用,为产业发展注入一剂“强心针”。“随着5G、物联网、云计算、大....
发表于 01-11 09:25 218次 阅读
2019年多产业融合将大势所趋移动转售业务发展将迎来新的机遇

埃森哲公司正在借助SAP的解决方案和相关技术,助力中国企业实现全价值链的数字化转型

SAP 和埃森哲都是2020年迪拜世博会的合作伙伴,双方携手为迪拜世博会搭建了基于 SAP S/4H....
的头像 SAP天天事 发表于 01-10 16:25 473次 阅读
埃森哲公司正在借助SAP的解决方案和相关技术,助力中国企业实现全价值链的数字化转型

工业互联网该如何助力中国制造业转型

首先工业4.0是德国提出来的,而工业互联网是由美国GE牵头成立的工业互联网联盟在推动的。
的头像 许永硕 发表于 01-10 09:53 504次 阅读
工业互联网该如何助力中国制造业转型

我国制造业面对新形势新要求应该怎么做

制造业与服务业融合发展不是简单的二者相加,而是要发挥乘数效应,实现聚合效应。 我国在新技术、新组织形....
发表于 01-10 08:51 399次 阅读
我国制造业面对新形势新要求应该怎么做

2019年政府将瞄准推进智能制造的发展开启制造强国的新篇章

制造业作为直接体现一个国家生产水平的重要标志,对于国家发展有着至关重要的作用。中国作为世界制造大国,....
发表于 01-10 08:48 552次 阅读
2019年政府将瞄准推进智能制造的发展开启制造强国的新篇章

智能制造已成为当今制造业转型的重要抓手

互联网、人工智能、大数据重不重要?当然重要,但在这些概念的鼓吹下,新造名词是存在泡沫的,它们始终解决....
发表于 01-10 08:39 278次 阅读
智能制造已成为当今制造业转型的重要抓手

三星调低2019年智能手机产量目标,5年内首次不足3亿台

在全球市场,三星智能手机的销量下滑趋势在2017年第四季度初见端倪,该季度三星的出货量为7730万台....
的头像 高工智能未来 发表于 01-09 15:49 437次 阅读
三星调低2019年智能手机产量目标,5年内首次不足3亿台

智能工厂、数字化工厂与智能制造的区别

智能工厂作为工业智能化发展的重要实践模式,已经引发行业的广泛关注。到底什么是智能工厂?智能工厂的核心架构是怎样的?能为企...
发表于 01-09 15:46 109次 阅读
智能工厂、数字化工厂与智能制造的区别

UWB高精度厘米级定位方案

中国古代人类为了不让自己迷失在茫茫大自然中,白天用太阳辨别方向,日出为东,日落为西,中午太阳在南;夜间则用北斗七星来辨别...
发表于 12-14 17:44 391次 阅读
UWB高精度厘米级定位方案

智能制造专家李明支招包装行业智能制造发展之路

12月12日下午,2018珠三角印刷包装智能技术交流会暨中山市印刷包装协会会员大会成功举办。广东省包装技术协会会长黄启洪、中山市...
发表于 12-14 16:03 227次 阅读
智能制造专家李明支招包装行业智能制造发展之路

hadoop和spark的区别

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个...
发表于 11-30 15:51 351次 阅读
hadoop和spark的区别

智能制造对产业发展的有什么颠覆性意义?

智能制造是什么 当前,全球制造业正加快迈向数字化、智能化时代,智能制造对制造业竞争力的影响越来越大。 智能制造就是面向产...
发表于 11-15 10:50 318次 阅读
智能制造对产业发展的有什么颠覆性意义?

Spark应用HanLP对中文语料进行文本挖掘 聚类详解教程

软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartit...
发表于 11-12 11:06 416次 阅读
Spark应用HanLP对中文语料进行文本挖掘 聚类详解教程

智能制造大环境下,传感器增量市场在哪?

据了解,2017年全球传感器市场规模超过2000亿美元,预计2018年这一规模将达到2500亿美元左右。 始于1950年的传感器经过半个多...
发表于 10-26 11:31 341次 阅读
智能制造大环境下,传感器增量市场在哪?

深圳卫视关于华南国际智能制造博览会的报道

深圳卫视关于华南国际智能制造博览会的报道,望友出现在34到37秒之间。望友这次展会上借助自身软件实时显示了生产过程中数据在机...
发表于 10-18 13:27 496次 阅读
深圳卫视关于华南国际智能制造博览会的报道

“汽车零配件及相关产业”&“智能制造”的创业创新大赛,有人参加吗?

发表于 10-16 20:59 379次 阅读
“汽车零配件及相关产业”&“智能制造”的创业创新大赛,有人参加吗?

2019年北京软博会软件行业技术产品展览会

    2019年北京软博会                    &n...
发表于 10-13 11:12 480次 阅读
2019年北京软博会软件行业技术产品展览会