张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

工业大数据挖掘的利器——Spark MLlib

格创东智 2019-01-10 13:40 次阅读

格物汇之前刊发的《工业大数据处理领域的“网红”——Apache Spark》中提到,在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。Spark有一个机器学习组件是专门用于解决海量数据如何进行高效数据挖掘的问题,那就是SparkMLlib组件。今天的格物汇就给大家详细介绍一下Spark MLlib。

Spark MLlip 天生适合迭代计算

在介绍Spark MLlib 这个组件前,我们先了解一下机器学习的定义。在维基百科中对机器学习给出如下定义:

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

很明显,机器学习的重点之一就是“经验”,对于计算机而言,经验就是需要进行多次迭代计算得到的,Spark 的基于内存的计算模式天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说Spark正是机器学习的理想的平台。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较,如图下图所示。

Spark MLlib 算法以及功能

MLlib由一些通用的学习算法以及工具组成,其中包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体主要包含以下内容:

>>>>

回归(Regression)

线性回归(Linear

广义线性回归(Generalized Linear)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

Survival

Isotonic

>>>>

分类(Classification)

  逻辑回归(Logistic,二分类和多酚类)

决策树(Decision Tree)

随机森林(Random Forest)

梯度提升树(Gradient-boosted Tree)

多层反馈(Multilayer Perceptron)

支持向量机(Linear support vector machine)

One-vs-All

朴素贝叶斯(Naive Bayes)

>>>>

聚类(Clustering)

  K-means

隐含狄利克雷分布(LDA)

BisectingK-means

高斯混合模型(Gaussian Mixture Model)

  协同过滤(Collaborative Filtering)

>>>>

特征工程(Featurization)

特征工程(Featurization)

特征提取

转换

降维(Dimensionality reduction)

筛选(Selection)

>>>>

管道(Pipelines)

组合管道(Composing Pipelines)

构建、评估和调优(Tuning)机器学习管道

>>>>

持久化(Persistence)

保存算法,模型和管道到持久化存储器,以备后续使用

从持久化存储器载入算法、模型和管道

>>>>

实用工具(Utilities)

线性代数(Linear algebra)

统计

数据处理

其他

综上可见,Spark在机器学习上发展还是比较快的,目前已经支持了主流的统计和机器学习算法。

Spark MLlib API 变迁

Spark MLlib 组件从Spark 1.2版本以后就出现了两套机器学习API:

spark.mllib基于RDD的机器学习API,是Spark最开始的机器学习API,在Spark1.0以前的版本就已经存在的了。

spark.ml提供了基于DataFrame 高层次的API,引入了PipLine,可以向用户提供一个基于DataFrame的机器学习流式API套件。

Spark 2.0 版本开始,spark mllib就进入了维护模式,不再进行更新,后续等spark.ml API 足够成熟并足以取代spark.mllib 的时候就弃用。

那为什么Spark要将基于RDD的API 切换成基于DataFrame的API呢?原因有以下三点:

首先相比spark.mllib,spark.ml的API更加通用和灵活,对用户更加友好,并且spark.ml在DataFrame上的抽象级别更高,数据与操作的耦合度更低;

spark.ml中无论是什么模型,都提供了统一的算法操作接口,例如模型训练就调用fit方法,不行spark.mllib中不同模型会有各种各样的trainXXX;

受scikit-learn 的Pipline概念启发,spark.ml引入pipeline, 跟sklearn,这样可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来,使得工作流变得更加容易。

如今工业互联网飞速发展,企业内部往往存储着TB级别甚至更大的数据,面对海量数据的难以进行有效快速的进行数据挖掘等难题,Spark提供了MLlib 这个组件,通过利用了Spark 的内存计算和适合迭代型计算的优势,并且提供用户友好的API,使用户能够轻松快速的应对海量数据挖掘的问题,加快工业大数据的价值变现。作为TCL集团孵化的创新型科技公司,格创东智正在致力于深度融合包括Spark在内的大数据、人工智能、云计算等前沿技术与制造行业经验,打造行业领先的“制造x”工业互联网平台。随着未来Spark社区在AI领域的不断发力,相信Spark MLlib组件的表现会越来越出色。

本文作者:格创东智大数据工程师黄欢(转载请注明作者及来源)

收藏 人收藏
分享:

评论

相关推荐

Spark基础及源码分析视频

    本视频面向拥有Java语言基础的同学,以Java语言为蓝本,深入浅出的讲解scala语言的语
发表于 09-26 00:00 36115次 阅读
Spark基础及源码分析视频

全球工业互联网发展主要历程和做法实践及启示的详细资料说明

工业互联网作为新一代信息技术与制造业深度融合的产物,日益成为新工业革命的关键支撑,对未来工业发展产生....
的头像 OFweek工控 发表于 03-24 10:36 403次 阅读
全球工业互联网发展主要历程和做法实践及启示的详细资料说明

Exyte未来数字化智能制造的解决方案介绍

智能制造的概念集合了物联网(IoT)技术、互联IT系统、以及运用于半导体晶圆厂中的自动化大数据分析等....
发表于 03-24 10:23 22次 阅读
Exyte未来数字化智能制造的解决方案介绍

了解智能制造应用和合理建造智能工厂

当前,一系列政策和措施正在加速推进我国智能制造发展,各行业制造企业都在积极探索智能制造的应用以及智能....
发表于 03-24 10:16 13次 阅读
了解智能制造应用和合理建造智能工厂

爱仕达温岭工厂将在2019年全面投产,整合500台钱江机器人

目前,爱仕达已经具备了完整的智能制造研发、生产、应用、服务能力,并在上海成立智能研究院,对机器视觉、....
的头像 电子发烧友网工程师 发表于 03-23 11:05 653次 阅读
爱仕达温岭工厂将在2019年全面投产,整合500台钱江机器人

2019-2023年中国工业机器人系统集成行业调研报告-GGII

目前,机器人行业应用趋势由汽车向一般工业行业转移,3C电子行业成为继汽车之后的第二大应用行业,而3C....
的头像 电子发烧友网工程师 发表于 03-23 10:56 709次 阅读
2019-2023年中国工业机器人系统集成行业调研报告-GGII

埃夫特牵手安徽汽车应用技师学院,共建埃夫特机器人学院

校企三方建立战略合作伙伴关系,共同打造“埃夫特机器人学院”,构建适合智能制造人才快速成长的育人新机制....
的头像 电子发烧友网工程师 发表于 03-23 10:47 437次 阅读
埃夫特牵手安徽汽车应用技师学院,共建埃夫特机器人学院

10亿赌局的背后,这场“赌局”涉及的其实是互联网与“中国智能制造”的关系

2013年对赌之后,雷军和董明珠曾多次隔空喊话,表示自己能赢这场赌局。不过,比起“口水仗”,更能从双....
的头像 电子发烧友网工程师 发表于 03-23 10:44 651次 阅读
10亿赌局的背后,这场“赌局”涉及的其实是互联网与“中国智能制造”的关系

从“工业互联网”到5G光模块市场和技术

从“工业互联网”到5G在刚刚过去的两会期间,一个被广泛关注的概念——“工业互联网”于今年首次被写入政府工作报告。“工业互联...
发表于 03-22 16:02 70次 阅读
从“工业互联网”到5G光模块市场和技术

2019年我国经济社会的发展要推进、实施哪些工程和项目?

促进京津冀协同发展,积极稳妥有序推进北京非首都功能疏解,出台实施雄安新区相关规划及改革开放配套实施方....
的头像 人工智能学家 发表于 03-22 14:14 278次 阅读
2019年我国经济社会的发展要推进、实施哪些工程和项目?

ATEN宏正亮相SEMICON China 2019助力半导体制造智能化升级

因半导体制造业属于高科技范畴,生产线所需要的设备、仪器大多依托于计算机的控制对生产过程中的数据、图像....
发表于 03-22 12:39 56次 阅读
ATEN宏正亮相SEMICON China 2019助力半导体制造智能化升级

当今世界制造业智能化发展的五大趋势介绍

智能制造是基于新一代信息技术,贯穿设计、生产、管理、服务等制造活动各环节,具有信息深度自感知、智慧优....
发表于 03-22 08:44 47次 阅读
当今世界制造业智能化发展的五大趋势介绍

2014-2019年中国智能制造行业市场规模统计及增长情况预测

智能制造促进传统行业转型升级好处多多 无人驾驶、无人车间、智能家电、送餐机器人……未来,高度智能化的....
发表于 03-22 08:38 98次 阅读
2014-2019年中国智能制造行业市场规模统计及增长情况预测

十亿赌约后,两位大佬再次“杠上”

双方在智能制造上,都在寻找合适的路径,积极扩大市场份额。
的头像 LinkedIn 发表于 03-22 08:37 570次 阅读
十亿赌约后,两位大佬再次“杠上”

SAP与沈自所联合发布第三代自适应模块化智能制造解决方案

SAP中国研究院与中国科学院沈阳自动化研究所(SIA,以下简称”沈自所”)正式发布第三代自适应模块化....
发表于 03-22 08:33 51次 阅读
SAP与沈自所联合发布第三代自适应模块化智能制造解决方案

SugarTalk004期之2019国际智能制造生态链峰会

人类社会进入工业化时代已经有260年,但真正给制造业赋予智能化的能力,也是在计算机发明之后,这段期间....
的头像 TechSugar 发表于 03-21 18:16 736次 阅读
SugarTalk004期之2019国际智能制造生态链峰会

10月量产!8K项目带动千亿级新一代信息技术产业链

在富士康超视堺第10.5代显示器全生态产业园区研发技术展示中心内,两台尺寸一致的电视正不停播放着相同....
的头像 CINNO 发表于 03-21 18:02 1273次 阅读
10月量产!8K项目带动千亿级新一代信息技术产业链

中国制造企业转型升级的问题在哪儿?制造企业高管走出去看什么?

当前,中国制造企业面临提高运营效率、推进节能减排、提高产品质量、提升产品创新能力、实现数字化和智能化....
的头像 电子发烧友网工程师 发表于 03-21 15:39 287次 阅读
中国制造企业转型升级的问题在哪儿?制造企业高管走出去看什么?

国务院的工作报告明确提出了要推动工业互联网和“智能+”

从全球工业互联网发展趋势来讲,利用数字孪生体构建工业互联网体系,已经成为了常规做法。国内对数字孪生体....
的头像 电子发烧友网工程师 发表于 03-21 11:40 330次 阅读
国务院的工作报告明确提出了要推动工业互联网和“智能+”

谷云松: 工业互联网需要“回归工业软件本身”

目前,国内工业互联网领域的发展形势一片大好,所有人都在期待制造业能够通过新技术、新理念得到新发展。身....
的头像 工业4俱乐部 发表于 03-21 11:36 536次 阅读
谷云松: 工业互联网需要“回归工业软件本身”

人工智能与工业互联网的结合是大势所趋,现在只是刚刚开始

人工智能AI与工业互联网IIoT、大数据分析、云计算和信息物理系统的集成将使工业以灵活、高效和节能的....
的头像 电子发烧友网工程师 发表于 03-21 11:35 635次 阅读
人工智能与工业互联网的结合是大势所趋,现在只是刚刚开始

word count词频和TopK统计

Spark学习笔记(二)算子综合案例实战
发表于 03-21 11:09 27次 阅读
word count词频和TopK统计

工业互联网有利于推动制造业融通发展促进创新创业

工业互联网的本质和核心是通过工业互联网平台把设备、生产线、工厂、供应商、产品和客户紧密地连接融合起来....
发表于 03-21 09:08 76次 阅读
工业互联网有利于推动制造业融通发展促进创新创业

如何识别工业互联网的三重境界

工业互联网平台在当下已经是炙手可热了,正式进入政府工作报告。工业互联网也成为新基础设施的一部分。为行....
发表于 03-21 09:04 85次 阅读
如何识别工业互联网的三重境界

博世力士乐电子传动与控制有限公司二期扩建项目正式破土动工

“这一扩建项目旨在将西安工厂发展成为智能制造和工业自动化方案的整体供应商,以及全球‘未来工厂’示范基....
的头像 博世资讯小助手 发表于 03-20 17:42 1083次 阅读
博世力士乐电子传动与控制有限公司二期扩建项目正式破土动工

关于AWE2019:康佳电视推Micro LED概念机

这款Micro LED技术概念机Mini LED TV采用巨量转移技术Mini LED背光、147%....
的头像 电子发烧友网工程师 发表于 03-20 16:02 476次 阅读
关于AWE2019:康佳电视推Micro LED概念机

开源工业互联网联盟秘书处决定提供“理事+”服务

据开源工业互联网联盟理事长胡权介绍,开源工业互联网创新中心可以聚焦到教育培训、自动化产线、云服务平台....
的头像 电子发烧友网工程师 发表于 03-20 14:41 219次 阅读
开源工业互联网联盟秘书处决定提供“理事+”服务

新势力之碧桂园建筑机器人的“搬砖梦”

3月13日讯,奇点汽车已于近日与西门子(中国)签署战略合作协议,双方将在智能制造和大数据等方面进行合....
的头像 电子发烧友网工程师 发表于 03-20 14:31 343次 阅读
新势力之碧桂园建筑机器人的“搬砖梦”

工业4.0资本汇——智能制造项目投融资沙龙”2019年启动会

2018年3月,智语科技在杭州成立,公司集结了拥有15年连续创业的运营大咖和近20多年人工智能领域研....
的头像 电子发烧友网工程师 发表于 03-20 13:42 356次 阅读
工业4.0资本汇——智能制造项目投融资沙龙”2019年启动会

谭建荣: 呼吁民企“拥抱”智能制造

呼吁民营企业抓住转型机遇,谋求新发展
的头像 浙江省物联网产业协会 发表于 03-20 11:38 237次 阅读
谭建荣: 呼吁民企“拥抱”智能制造

中国工业从制造迈向智造的十个路径方向

一般来讲,以下十个路径方向是中国工业从制造迈向智造的必经之路,只不过对于不同的行业和不同的企业来说,....
发表于 03-20 08:46 83次 阅读
中国工业从制造迈向智造的十个路径方向

企业在实施智能制造之前需要考虑三个支点

《论智能制造》系列中的“论智能制造的三个阶段”中,谈到了对三个阶段的基本认识。而如何实施智能制造,则....
发表于 03-20 08:43 74次 阅读
企业在实施智能制造之前需要考虑三个支点

中小企业实现智能制造之路的挑战及供应链管理

当然美国的制造业领先企业也对制造业的智能化趋势进行了布局和研究,比如GE公司提出的工业互联网(Ind....
发表于 03-20 08:39 95次 阅读
中小企业实现智能制造之路的挑战及供应链管理

智能制造促进传统行业转型升级 好处多多

万科董事会主席郁亮表示,科技和互联网是房地产行业发展进阶的重要驱动力,在传统的住宅开发、物业服务以及....
的头像 电子发烧友网工程师 发表于 03-19 17:33 1441次 阅读
智能制造促进传统行业转型升级 好处多多

美的工业互联网平台 M.IoT:让未来工厂触手可及

KUKA机器人、美的机器人、高创传动、瑞仕格、工业互联网平台M.IoT……都来了
的头像 工控头条 发表于 03-19 17:27 889次 阅读
美的工业互联网平台 M.IoT:让未来工厂触手可及

大数据时代还需要数据治理吗?如何面向用户开展大数据治理?

该电力公司的大数据治理的起点是先以元数据为基础,构建数据资产管理体系。从用户的视角说明白企业数据有哪....
的头像 电子发烧友网工程师 发表于 03-19 14:43 2094次 阅读
大数据时代还需要数据治理吗?如何面向用户开展大数据治理?

关于人工智能应用于工业场景中的各种实际案例

人工智能AI与工业互联网IIoT、大数据分析、云计算和信息物理系统的集成将使工业以灵活、高效和节能的....
的头像 电子发烧友网工程师 发表于 03-19 14:37 404次 阅读
关于人工智能应用于工业场景中的各种实际案例

中德互联网回顾,德国人民用不用互联网?

目前德国银行业正在联合推广Paydirekt移动电子支付,未来会不会像支付宝和微信支付那样通过App....
的头像 嵌入式资讯精选 发表于 03-18 17:04 437次 阅读
中德互联网回顾,德国人民用不用互联网?

工业互联网成两会热点,工业互联网是物联网在工业的应用

今年工业互联网的另外一个关键词是落地。工业互联网已经从理论探讨进入落地实践阶段。在工业互联网峰会上,....
的头像 许永硕 发表于 03-18 11:51 555次 阅读
工业互联网成两会热点,工业互联网是物联网在工业的应用

中国家电及消费电子博览会: 美的发布新品牌,展示工业互联网布局

中国家电及消费电子博览会(AWE)开幕前夕,美的集团在年度战略发布会上分享了对未来的洞察:美的认为,....
的头像 电子发烧友网工程师 发表于 03-17 11:16 856次 阅读
中国家电及消费电子博览会: 美的发布新品牌,展示工业互联网布局

江西省5G发展规划:2023年全省5G产业规模达到1000亿元

未来5年,江西省将重点落实以“6431”为核心的5G发展总体布局,即推进5G与VR、工业互联网、车联....
的头像 电子发烧友网工程师 发表于 03-17 10:00 388次 阅读
江西省5G发展规划:2023年全省5G产业规模达到1000亿元

深南电路年营收超76亿,PCB业务贡献最大、增长最快

根据国际研究暨顾问机构Gartner报告预估,2019年全球穿戴式装置出货量将达到2.25亿台,年增....
的头像 电子发烧友网工程师 发表于 03-16 11:20 552次 阅读
深南电路年营收超76亿,PCB业务贡献最大、增长最快

江苏拓斯达(吴中)项目正式开工开业

江苏拓斯达(吴中)项目是拓斯达在长三角的重要战略布局,其功能定位是立足华东,辐射华北。项目一期占地9....
的头像 电子发烧友网工程师 发表于 03-16 11:04 505次 阅读
江苏拓斯达(吴中)项目正式开工开业

工业互联网对制造业发展的重要性

建设和发展工业互联网,对推动制造业转型升级,大力发展数字经济,打造制造强国、网络强国具有重要意义。
的头像 电子发烧友网工程师 发表于 03-16 07:57 787次 阅读
工业互联网对制造业发展的重要性

天泽智云的工业智能是怎么玩的?

面对制造业用户“数据孤岛”和“需求非标”的双重挑战,关注工业和制造领域的服务商,都会特别关注项目型思....
的头像 电子发烧友网工程师 发表于 03-15 16:50 538次 阅读
天泽智云的工业智能是怎么玩的?

详细解读了航天科工为国际工业互联网建设贡献的“中国方案”

其次是企业形态将向“极大化”和“极小化”两端快速演变:极大化的平台将产业链的纵横业务数据囊括其中,通....
的头像 电子发烧友网工程师 发表于 03-15 16:42 683次 阅读
详细解读了航天科工为国际工业互联网建设贡献的“中国方案”

两会热点:政府是如何看待工业互联网的?

一是数据采集难。当前,许多工业企业特别是中小微企业,多数机器设备没有联网,少数设备联了网,但是这些设....
的头像 电子发烧友网工程师 发表于 03-15 16:38 803次 阅读
两会热点:政府是如何看待工业互联网的?

50家企业的领袖汇聚一堂,共同探讨行业趋势走向

张小飞认为,机器人进入战争年代。战之谋略即谋战略,胜战役,远战斗。智能制造=机器人+智能软硬件+集成....
的头像 电子发烧友网工程师 发表于 03-15 15:23 466次 阅读
50家企业的领袖汇聚一堂,共同探讨行业趋势走向

继实施洛阳格力中央空调项目后,格力再次“牵手”洛阳

据悉,洛阳格力洗衣机、晶弘冰箱生产基地项目,是洛阳市和高新区引进的重点建设项目,总投资约50亿元人民....
的头像 电子发烧友网工程师 发表于 03-15 15:18 1915次 阅读
继实施洛阳格力中央空调项目后,格力再次“牵手”洛阳

科大讯飞展出了iFLYOS 软硬一体化的智能硬件端到端解决方案

具体来说,iFLYOS 是一套软硬一体化的端到端系统解决方案。科大讯飞以 iFLYOS 云端语音操作....
的头像 电子发烧友网工程师 发表于 03-15 13:58 660次 阅读
科大讯飞展出了iFLYOS 软硬一体化的智能硬件端到端解决方案

Hanlp分词1.7版本在Spark中分布式使用记录

新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过...
发表于 03-11 15:38 174次 阅读
Hanlp分词1.7版本在Spark中分布式使用记录

采用VMware和CentOS及Hadoop的Spark安装和配置

5 基于 Mac 平台 VMware 虚拟机的 Spark 安装 (5)
发表于 03-08 16:35 53次 阅读
采用VMware和CentOS及Hadoop的Spark安装和配置

2019人工智能博览会用AI技术联通未来世界

                           &nb...
发表于 02-18 15:10 317次 阅读
2019人工智能博览会用AI技术联通未来世界

spark集群使用hanlp进行分布式分词操作说明

本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自【qq_33872191】的博客,感...
发表于 01-21 10:45 170次 阅读
spark集群使用hanlp进行分布式分词操作说明

智能工厂、数字化工厂与智能制造的区别

智能工厂作为工业智能化发展的重要实践模式,已经引发行业的广泛关注。到底什么是智能工厂?智能工厂的核心架构是怎样的?能为企...
发表于 01-09 15:46 288次 阅读
智能工厂、数字化工厂与智能制造的区别

UWB高精度厘米级定位方案

中国古代人类为了不让自己迷失在茫茫大自然中,白天用太阳辨别方向,日出为东,日落为西,中午太阳在南;夜间则用北斗七星来辨别...
发表于 12-14 17:44 782次 阅读
UWB高精度厘米级定位方案

智能制造专家李明支招包装行业智能制造发展之路

12月12日下午,2018珠三角印刷包装智能技术交流会暨中山市印刷包装协会会员大会成功举办。广东省包装技术协会会长黄启洪、中山市...
发表于 12-14 16:03 361次 阅读
智能制造专家李明支招包装行业智能制造发展之路

hadoop和spark的区别

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个...
发表于 11-30 15:51 452次 阅读
hadoop和spark的区别