张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

工业大数据挖掘的利器——Spark MLlib

格创东智 2019-01-10 13:40 次阅读

格物汇之前刊发的《工业大数据处理领域的“网红”——Apache Spark》中提到,在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。Spark有一个机器学习组件是专门用于解决海量数据如何进行高效数据挖掘的问题,那就是SparkMLlib组件。今天的格物汇就给大家详细介绍一下Spark MLlib。

Spark MLlip 天生适合迭代计算

在介绍Spark MLlib 这个组件前,我们先了解一下机器学习的定义。在维基百科中对机器学习给出如下定义:

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

很明显,机器学习的重点之一就是“经验”,对于计算机而言,经验就是需要进行多次迭代计算得到的,Spark 的基于内存的计算模式天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说Spark正是机器学习的理想的平台。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较,如图下图所示。

Spark MLlib 算法以及功能

MLlib由一些通用的学习算法以及工具组成,其中包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体主要包含以下内容:

>>>>

回归(Regression)

线性回归(Linear

广义线性回归(Generalized Linear)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

Survival

Isotonic

>>>>

分类(Classification)

  逻辑回归(Logistic,二分类和多酚类)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

多层反馈(Multilayer Perceptron)

支持向量机(Linear support vector machine)

One-vs-All

朴素贝叶斯(Naive Bayes)

>>>>

聚类(Clustering)

  K-means

隐含狄利克雷分布(LDA)

BisectingK-means

高斯混合模型(Gaussian Mixture Model)

  协同过滤(Collaborative Filtering)

>>>>

特征工程(Featurization)

特征工程(Featurization)

特征提取

转换

降维(Dimensionality reduction)

筛选(Selection)

>>>>

管道(Pipelines)

组合管道(Composing Pipelines)

构建、评估和调优(Tuning)机器学习管道

>>>>

持久化(Persistence)

保存算法,模型和管道到持久化存储器,以备后续使用

从持久化存储器载入算法、模型和管道

>>>>

实用工具(Utilities)

线性代数(Linear algebra)

统计

数据处理

其他

综上可见,Spark在机器学习上发展还是比较快的,目前已经支持了主流的统计和机器学习算法。

Spark MLlib API 变迁

Spark MLlib 组件从Spark 1.2版本以后就出现了两套机器学习API:

spark.mllib基于RDD的机器学习API,是Spark最开始的机器学习API,在Spark1.0以前的版本就已经存在的了。

spark.ml提供了基于DataFrame 高层次的API,引入了PipLine,可以向用户提供一个基于DataFrame的机器学习流式API套件

Spark 2.0 版本开始,spark mllib就进入了维护模式,不再进行更新,后续等spark.ml API 足够成熟并足以取代spark.mllib 的时候就弃用。

那为什么Spark要将基于RDD的API 切换成基于DataFrame的API呢?原因有以下三点:

首先相比spark.mllib,spark.ml的API更加通用和灵活,对用户更加友好,并且spark.ml在DataFrame上的抽象级别更高,数据与操作的耦合度更低;

spark.ml中无论是什么模型,都提供了统一的算法操作接口,例如模型训练就调用fit方法,不行spark.mllib中不同模型会有各种各样的trainXXX;

受scikit-learn 的Pipline概念启发,spark.ml引入pipeline, 跟sklearn,这样可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来,使得工作流变得更加容易。

如今工业互联网飞速发展,企业内部往往存储着TB级别甚至更大的数据,面对海量数据的难以进行有效快速的进行数据挖掘等难题,Spark提供了MLlib 这个组件,通过利用了Spark 的内存计算和适合迭代型计算的优势,并且提供用户友好的API,使用户能够轻松快速的应对海量数据挖掘的问题,加快工业大数据的价值变现。作为TCL集团孵化的创新型科技公司,格创东智正在致力于深度融合包括Spark在内的大数据、人工智能、云计算等前沿技术与制造行业经验,打造行业领先的“制造x”工业互联网平台。随着未来Spark社区在AI领域的不断发力,相信Spark MLlib组件的表现会越来越出色。

本文作者:格创东智大数据工程师黄欢(转载请注明作者及来源)

收藏 人收藏
分享:

评论

相关推荐

Spark基础及源码分析视频

    本视频面向拥有Java语言基础的同学,以Java语言为蓝本,深入浅出的讲解scala语言的语
发表于 09-26 00:00 36115次 阅读
Spark基础及源码分析视频

Spark基础及源码分析视频

    本视频面向拥有Java语言基础的同学,以Java语言为蓝本,深入浅出的讲解scala语言的语
发表于 09-26 00:00 36115次 阅读
Spark基础及源码分析视频

工业互联网进一步发展还有那些障碍

随着这几年工业互联网的不断深入发展,大数据在工业领域的应用取得了可喜的巨大进步。然而,我们也应该看到....
的头像 工业4俱乐部 发表于 06-16 11:26 276次 阅读
工业互联网进一步发展还有那些障碍

中国制造高端海洋装备实现新的飞跃

面朝大海,春暖花开,广阔无垠的大海总是能够引发人们无尽的遐思和憧憬。驾一叶扁舟,遨游于天地之间,也曾....
发表于 06-16 09:40 45次 阅读
中国制造高端海洋装备实现新的飞跃

安徽省加快煤矿井下机器人的应用,推进制造业的发展

  据消息报道,安徽省煤矿井下机器人产需对接会近日在合肥召开。会议旨在加快安徽省煤矿井下机器人的应用....
发表于 06-16 08:51 20次 阅读
安徽省加快煤矿井下机器人的应用,推进制造业的发展

2019世界工业互联网大会亮点抢先看

2019年6月15至16日,由工业和信息化部、国务院国有资产监督管理委员会、四川省人民政府主办,由中....
的头像 工业互联网观察 发表于 06-15 11:19 862次 阅读
2019世界工业互联网大会亮点抢先看

2017年工业控制漏洞收录数同比增长近一倍

2018工业互联网峰会于2月1日在北京正式开幕,360企业安全集团副总裁、工业控制系统安全国家地方联....
发表于 06-15 10:47 77次 阅读
2017年工业控制漏洞收录数同比增长近一倍

新一代信息技术为拓展工业互联网带来新机遇

在这一场景中,一边是近两年发展得如火如荼的工业互联网,一边是以5G、人工智能等为代表的新一代信息技术....
的头像 北京科技政策法规宣讲团 发表于 06-14 16:46 287次 阅读
新一代信息技术为拓展工业互联网带来新机遇

线路板的布线越来越密 怎么提升PCB一次良率?

电子产品一直在进行精致化,功能强大的演变,线路板的布线也是越来越密,PCB一次良率的提升是个永远的议....
的头像 PCBworld 发表于 06-14 14:36 164次 阅读
线路板的布线越来越密 怎么提升PCB一次良率?

第三代自适应模块化智造产线!

SAP 中国研究院与中国科学院沈阳自动化研究所(SIA,以下简称「沈自所」)正式发布第三代自适应模块....
的头像 SAP天天事 发表于 06-14 11:15 372次 阅读
第三代自适应模块化智造产线!

江铜贵溪冶炼厂携手海康威视 为“新智造”增效升级

完成了跨领域的集中可视化管理、调度和指挥,企业安防等级和保卫工作效率得到很大提高。
的头像 海康威视 发表于 06-14 08:57 281次 阅读
江铜贵溪冶炼厂携手海康威视 为“新智造”增效升级

如何将传统的制造业与年轻的科技相结合

这轮数字化转型最大的背景就是我们正处在一场大变革的时代,有人把它解读成“第四次工业革命”;有人说它是....
发表于 06-14 08:35 95次 阅读
如何将传统的制造业与年轻的科技相结合

一场工业互联网与人工智能技术的“联姻”

当“制造潮流”遇上“技术新星”,会发生怎样的化学反应?
的头像 青岛科技通 发表于 06-13 18:03 722次 阅读
一场工业互联网与人工智能技术的“联姻”

工业控制系统迈向开放 你想好如何进行安全防范了吗

随着国际国内工业互联网、工业4.0、中国制造2025战略的提出,信息技术(IT, Informati....
发表于 06-13 17:17 109次 阅读
工业控制系统迈向开放 你想好如何进行安全防范了吗

存储技术发展现状与巨大市场的机遇

随着智能制造的发展,我们的生活正在改变,图像识别、语音识别、人机大战、智能机器人、深度学习、自动驾驶....
发表于 06-13 16:59 101次 阅读
存储技术发展现状与巨大市场的机遇

智能制造产业园区选址的三个关键点

以智能制造为代表的高端制造业,不但是中国制造业转型升级的必然途径,还成为重塑城市间产业竞争力的关键因....
的头像 OFweek工控 发表于 06-13 16:39 507次 阅读
智能制造产业园区选址的三个关键点

5G时代来临 为什么说获益最大的是物联网和工业互联网?

当下,5G技术已经成为全球通讯行业最为热点的话题。华为的5G技术走向国际,韩国率先实现5G商用,俄罗....
的头像 工业IoT 发表于 06-13 15:53 296次 阅读
5G时代来临 为什么说获益最大的是物联网和工业互联网?

低成本高效率还易操作 标准化模块式机器人组装流水线助力智能制造

本届峰会的展览展示板块,集中展示国内外最具代表性的机器人产品和技术成果,海铭德科技在本次峰会上展示的....
的头像 机器人峰会 发表于 06-13 10:52 344次 阅读
低成本高效率还易操作 标准化模块式机器人组装流水线助力智能制造

工业互联网与流程行业能源管理的新时代

我国是世界上化石燃料使用和CO2排放最多的国家,经济发展受到自然资源和环境容量的双重制约。节能减排、....
的头像 工业互联网研习社 发表于 06-13 09:48 297次 阅读
工业互联网与流程行业能源管理的新时代

深耕“互联网+先进制造业”,推动区域制造业转型升级的布局与谋划

苏州市人民政府与中国移动通信集团江苏有限公司、中移(苏州)软件技术有限公司及中移(上海)信息通信科技....
的头像 OFweek工控 发表于 06-12 16:39 465次 阅读
深耕“互联网+先进制造业”,推动区域制造业转型升级的布局与谋划

博世去年销售额1126亿 年内将建中国软件中心

德国博世集团日前宣布,去年集团在中国实现销售额1126亿元(约合144亿欧元),同比增长近2.5%。....
的头像 工控头条 发表于 06-12 16:39 476次 阅读
博世去年销售额1126亿 年内将建中国软件中心

如何利用物联网将工业自动化提升到新的水平

自动化带来了自工业革命以来制造业最大的变革浪潮。机器人正在迅速取代人类工人,使制造和装配流程更快、更....
发表于 06-12 16:01 253次 阅读
如何利用物联网将工业自动化提升到新的水平

北京已初步形成完整的工业互联网产业体系

2019第二十三届中国国际软件博览会逐步临近,将于6月28日-30日在北京展览馆举办。
的头像 北京市电子科技情报研究所 发表于 06-12 11:44 515次 阅读
北京已初步形成完整的工业互联网产业体系

智能制造大趋所势,工厂企业该如何应对?

未来,物联网将给制造业带来巨大的价值,潜在价值可能会达数十万亿美元。
的头像 北京市电子科技情报研究所 发表于 06-12 11:42 428次 阅读
智能制造大趋所势,工厂企业该如何应对?

5G将在物联网以及工业互联网的发展上发挥“助推器”的作用

据预测,未来5G应用能力面向消费者占20%,面向产业服务的占80%
的头像 工控头条 发表于 06-11 16:14 292次 阅读
5G将在物联网以及工业互联网的发展上发挥“助推器”的作用

FQC的职责及对未合格产品的处置方式

FQC是指制造过程最终检查验证,亦称为制程完成品检查验证。在产品完成所有制程或工序后,对于产品本身的....
的头像 牵手一起梦 发表于 06-11 15:59 229次 阅读
FQC的职责及对未合格产品的处置方式

在5G长途赛局中 工业互联网IIoT有怎样的新起点?

根据权威机构的分析,5G技术所撬动的市场份额中将有80%集中于B2B端。工业互联网IIoT应用场景在....
的头像 OFweek工控 发表于 06-11 15:25 263次 阅读
在5G长途赛局中 工业互联网IIoT有怎样的新起点?

从细分市场起步,智能制造助力龙腾电子腾飞

龙腾电子已成为湖北省线路板生产商中唯一一家智能制造示范企业,每年可生产40万平方米高端多层印制电路板....
的头像 PCBworld 发表于 06-11 14:41 268次 阅读
从细分市场起步,智能制造助力龙腾电子腾飞

卡特彼勒制造中的这些模拟技术你了解吗

智能科技时代的到来,给人们的生活带来了翻天覆地的变化。数据和虚拟技术的应用,也促使着传统制造业向更加....
发表于 06-11 14:09 83次 阅读
卡特彼勒制造中的这些模拟技术你了解吗

云端赋能工业互联网 中国制造业加速上云

从中国制造迈向中国“智”造,工业互联网和“智慧”工厂被视为传统企业数字化转型升级方向。近年来我国云计....
的头像 青岛科技通 发表于 06-11 11:38 472次 阅读
云端赋能工业互联网 中国制造业加速上云

智能制造浪潮下 机器视觉产业迎来春天

机器视觉在未来的智能工厂中发挥着关键作用,未来自动化生产线将能够自我调整,以最大限度地提高质量、产量....
的头像 新机器视觉 发表于 06-11 08:56 371次 阅读
智能制造浪潮下 机器视觉产业迎来春天

智能制造的发展将催生装备产业万亿市场

智能制造是中国乃至全球制造业发展的总趋势,是培育经济增长新动能的必由之路。发展智能制造装备产业对于加....
发表于 06-11 08:37 131次 阅读
智能制造的发展将催生装备产业万亿市场

智能制造究竟能给工业数字化转型带来什么

这轮数字化转型最大的背景就是我们正处在一场大变革的时代,有人把它解读成“第四次工业革命”;有人说它是....
发表于 06-11 08:33 85次 阅读
智能制造究竟能给工业数字化转型带来什么

SoC FPGA或是工业和医疗物联网的新生力军

在这一海量市场中,工业物联网(IIoT)和医疗物联网(HcIoT)无疑备受瞩目。有研究认为,到202....
发表于 06-10 17:47 128次 阅读
SoC FPGA或是工业和医疗物联网的新生力军

制造业数字化转型的难点与对策

当前,需更好顺应数字经济发展趋势,解决好制造业数字化转型进程中的难点问题,切实推动制造业高质量发展。
的头像 工业4俱乐部 发表于 06-10 15:43 227次 阅读
制造业数字化转型的难点与对策

工业互联网生而联接工业要素

工业互联网的“第一性原理”,就是要广泛地联接各种机器设备和工业系统,由此而实现“联接-管控-优化-效....
的头像 工业4俱乐部 发表于 06-10 15:36 375次 阅读
工业互联网生而联接工业要素

在Spark 1.5.x版本的内置函数

Spark SQL(七):内置函数
发表于 06-10 15:23 14次 阅读
在Spark 1.5.x版本的内置函数

电路板行业智能制造高峰论坛成功举办 探讨如何迎接智能时代的机遇

近日,由市科技局、广东工业大学、国家科技成果网联合主办的“工业强基,科技先行”惠州市电路板行业智能制....
的头像 PCB资讯 发表于 06-10 15:00 233次 阅读
电路板行业智能制造高峰论坛成功举办 探讨如何迎接智能时代的机遇

中德智能制造技术产业交流会在上海成功召开

近日,由中国工业互联网研究院、上海市经济和信息化委员会指导,中国电子学会、思爱普(中国)有限公司主办....
的头像 智汇工业 发表于 06-10 10:31 480次 阅读
中德智能制造技术产业交流会在上海成功召开

5G与工业互联网完美融合 世界会怎么样?

关于5G,关于工业互联网,或者称为工业4.0,正是目前世界主要制造业强国争夺的焦点。谁在这场竞争当中....
的头像 工业IoT 发表于 06-08 17:11 444次 阅读
5G与工业互联网完美融合 世界会怎么样?

深入解读工业互联网平台产业生态布局

从全球发展来看,随着工业互联网平台市场的日渐成熟与不同主体间的竞争加剧,平台业务聚焦与不同平台间分工....
的头像 工业IoT 发表于 06-08 17:09 662次 阅读
深入解读工业互联网平台产业生态布局

智能制造基础学习第二阶段顺利展开

近日,CAA郑州综保区2019年智能制造基础学习暨交流研讨会主管讲堂第二阶段在F12-4FSEED学....
的头像 富士康新媒体 发表于 06-08 16:42 692次 阅读
智能制造基础学习第二阶段顺利展开

中国计划在未来5年内将工业机器人的数量增加近10倍

外媒称,中国生产链中的机器人革命正在大步向前发展。中国计划在未来5年内将工业机器人的数量增加近10倍....
的头像 天津机器人 发表于 06-07 14:46 1404次 阅读
中国计划在未来5年内将工业机器人的数量增加近10倍

关于智能制造领域轻与重的七大“误区”

推进智能工厂建设还需呼唤“理性”。
的头像 中山市物联网协会 发表于 06-06 17:52 1929次 阅读
关于智能制造领域轻与重的七大“误区”

工业互联网的未来在哪里

工业互联网(IIOT)是工业数字化转型浪潮下,工业体系和互联网体系深度融合的产物,是新一轮工业革命的....
发表于 06-06 16:53 366次 阅读
工业互联网的未来在哪里

协作机器人为汽车业赋能 北汽李尔加速智能化改造

日前,一场有关智能协作机器人的技术应用展示,在北京北汽李尔的智能化工厂进行。
的头像 天津机器人 发表于 06-06 16:22 557次 阅读
协作机器人为汽车业赋能 北汽李尔加速智能化改造

乙醇的用途及具有哪些危害

乙醇是一种很好的溶剂,能溶解许多物质,所以常用乙醇来溶解植物色素或其中的药用成分;也常用乙醇作为反应....
的头像 牵手一起梦 发表于 06-06 14:01 368次 阅读
乙醇的用途及具有哪些危害

Digital Twin是什么 它能为企业做什么

Digital Twin意为数字双胞胎,或数字孪生、数字映射等等,业界翻译众多。
的头像 智汇工业 发表于 06-06 13:46 316次 阅读
Digital Twin是什么 它能为企业做什么

西门子年度大会上规划9大战略领域 加强6大举措

Realize LIVE 是西门子工业软件打造的年度用户大会,旨在连接各领域及各行业专家、合作伙伴及....
的头像 工业互联网和MES 发表于 06-06 08:56 554次 阅读
西门子年度大会上规划9大战略领域 加强6大举措

工信部加快5G推进步伐! 5G商用牌照到底会花落谁家?

当前,全球5G正在进入商用部署的关键期。坚持自主创新与开放合作相结合,我国5G产业已建立竞争优势。5....
的头像 工业互联网观察 发表于 06-06 08:51 391次 阅读
工信部加快5G推进步伐! 5G商用牌照到底会花落谁家?

6个阶段让你成为Spark高手

你想成为Spark高手吗?只要这6个阶段!
发表于 05-23 16:26 36次 阅读
6个阶段让你成为Spark高手

浅析spark动态资源分配

spark动态资源分配
发表于 05-23 08:36 25次 阅读
浅析spark动态资源分配

手动管理kafka的offset的方法

如何管理Spark Streaming消费Kafka的偏移量(三)
发表于 05-16 14:54 34次 阅读
手动管理kafka的offset的方法

Spark基本工作原理和工作流程

28 讲、Spark 基本工作原理与 RDD
发表于 05-08 17:07 55次 阅读
Spark基本工作原理和工作流程

在Spark Streaming集成Kafka时的offset状态的管理

如何管理Spark Streaming消费Kafka的偏移量(一)
发表于 05-05 09:27 26次 阅读
在Spark Streaming集成Kafka时的offset状态的管理

分析Stage被封装成TaskSet并将TaskSet提交到集群的Executor执行过程

Spark 源码解析:彻底理解TaskScheduler的任务提交和task最佳位置算法...
发表于 04-28 07:09 40次 阅读
分析Stage被封装成TaskSet并将TaskSet提交到集群的Executor执行过程

基于Spark 2.1版本的Apache Spark内存管理

Apache Spark 内存管理详解
发表于 04-26 17:13 109次 阅读
基于Spark 2.1版本的Apache Spark内存管理

Spark Streaming的DStream介绍

Spark Streaming 数据清理机制
发表于 04-25 13:47 72次 阅读
Spark Streaming的DStream介绍

Spark运行架构与源码解析

Spark 源码解析  DAGScheduler中的DAG划分与提交...
发表于 04-24 06:32 51次 阅读
Spark运行架构与源码解析