0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据应用的开发流程

RG15206629988 来源:行业学习与研究 2023-02-22 16:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大数据常见处理流程包括:原始数据采集、数据清洗、数据存储、统计分析、存储至数据仓库、数据导出、导入数据库、数据可视化。

49f2d180-b1d5-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

一、原始数据采集

原始数据采集的方式包括:爬虫程序采集、应用数据采集。

爬虫程序采集可在互联网中爬取需要的数据。

应用数据采集是指通过集群或分布式部署方式,将应用程序的日志文件存储于多个服务器中,再将日志文件数据集中存储。

二、数据清洗和数据存储

因为采集的数据中包含不符合要求的数据,如格式冲突的数据、漏项的数据、错误的数据等,所以需要数据清洗将不符合要求的数据去除。

数据清洗过程可以较简单,也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗(含个人理解);也可以通过复杂的机器学习模型清洗数据。

数据清洗可借助ETL软件(根据百度百科:ETL是数据仓库技术)。一般,数据被清洗后,数据量较大,无法存储于计算机内存中,因此,需将数据存储于HDFS(数据存储)中或其他大数据存储方式中。

三、统计分析和数据仓库

统计分析可通过选择合适统计分析工具完成。可使用MapReduce技术实现并行统计分析,也可使用Hive数据仓库(Hive数据仓库具有数据整理、特殊查询、分析存储功能)、Python、R等进行统计分析。

统计分析的难点不在于选择统计分析工具,而在于需求和分析对象。个人理解:具体的需求和分析对象多样导致统计分析不能简单地以某一方式解决所有统计分析问题。

统计分析结束后,数据可被存储于数据仓库中,可使用Hive数据仓库搭建所需的数据仓库。数据仓库的数据不能直接向用户呈现。

四、数据导出和数据库

因为数据仓库的数据不能直接向用户呈现,所以需要将数据从数据仓库导出,并将数据导入数据库中以实现数据可视化。数据导出可使用Sqoop(Sqoop可提供数据导入功能)。

数据库一般为关系型数据库。

五、数据可视化

数据可视化的目标是使数据可被直观展示,传统图形化展示方式种类较多(根据网络资料理解:传统图形化展示方式包括条形图、排列图、饼图、环形图等)。大数据新型可视化方式包括:气泡图、数据画像、地图涂色等。

六、大数据应用案例

下文介绍Hadoop自带的MapReduce应用案例WordCount,WordCount可统计文件的词频。

(1)启动Hadoop系统服务,需启动HDFS与Yarn服务(根据百度百科:Yarn是新的Hadoop资源管理器,是通用资源管理系统)。

4a33be2a-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内命令为HDFS启动命令,绿框内命令为Yarn服务启动命令,图片来源:根据学堂在线《大数据导论》资料制作

(2)检查Hadoop安全模式是否为“OFF”状态,如果Hadoop安全模式的状态为“ON”,则只能读取HDFS中的数据,不能向HDFS中写入数据。

(3)准备需要处理的数据,即查看文本文件中的内容。

4a9bfe2c-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内命令为查看文件内容命令,绿框内为文件中的内容,图片来源:根据学堂在线《大数据导论》资料制作

(4)执行WordCount应用程序。WordCount的具体命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被统计文件的目录名与文件名 统计结果输出文件目录名与文件名。

4ac8966c-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内为WordCount应用程序统计结果输出文件的内容,图片来源:根据学堂在线《大数据导论》资料制作






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3993

    浏览量

    67718
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136220
  • python
    +关注

    关注

    57

    文章

    4856

    浏览量

    89556
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10067

原文标题:大数据相关介绍(11)——大数据应用的开发流程

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    明晚8点|睿擎文件系统实战:从开发到发布全流程解析

    从文件操作到镜像发布,一次直播掌握完整开发流程!在嵌入式系统开发中,文件系统是数据存储、配置管理和资源访问的核心基础。然而在实际开发中,文件
    的头像 发表于 11-11 11:53 367次阅读
    明晚8点|睿擎文件系统实战:从<b class='flag-5'>开发</b>到发布全<b class='flag-5'>流程</b>解析

    湖北大数据集团到访维智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访维智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 392次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 88次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    数据,结合大数据分析、流程自动化及云边协同技术,实现电磁环境全生命周期管理。以下从五大维度精简解析: 应用案例 北京华盛恒辉、北京五木恒润研发的 EMC/EMI 智能管理系统已落地应用,成效显著,为系统推广提供有力支撑。 一、
    的头像 发表于 09-17 14:58 427次阅读

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 479次阅读

    单片机开发流程包括什么?

    单片机开发是一个系统性的工程,从需求明确到最终产品落地,需要经历多个相互关联的流程环节,每个环节都对最终产品的性能和质量有着重要影响。 一、需求分析与文档梳理 开发流程的第一步是需求分
    的头像 发表于 07-22 11:21 618次阅读

    技术分享 | 如何在2k0300(LoongArch架构)处理器上跑通qt开发流程

    技术分享 | 如何在2k0300开发板(LoongArch架构)处理器上跑通qt开发流程
    的头像 发表于 05-20 11:05 650次阅读
    技术分享 | 如何在2k0300(LoongArch架构)处理器上跑通qt<b class='flag-5'>开发</b><b class='flag-5'>流程</b>

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13

    基于RV1126开发板的AI算法开发流程

    AI算法开发流程由需求分析到准备数据,然后到选取模型,训练模型,接着模型转换后进行模型部署
    的头像 发表于 04-18 14:03 2029次阅读
    基于RV1126<b class='flag-5'>开发</b>板的AI算法<b class='flag-5'>开发</b><b class='flag-5'>流程</b>

    基于RV1126开发板的AI算法开发流程

    AI算法开发流程由需求分析到准备数据,然后到选取模型,训练模型,接着模型转换后进行模型部署
    的头像 发表于 04-18 10:47 839次阅读
    基于RV1126<b class='flag-5'>开发</b>板的AI算法<b class='flag-5'>开发</b><b class='flag-5'>流程</b>

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合,共同赋能企业决策、业务创新和效率提升。下面UU云小编将详细剖析
    的头像 发表于 02-20 14:48 1266次阅读

    芯科科技Web-BasedFlash工具助力优化Matter开发流程

    Silicon Labs(芯科科技)独家提供Matter开发流程(Matter Developer Journey)设计资源,以作为其不断努力提升开发者体验,并简化该协议开发过程的一部
    的头像 发表于 02-20 09:52 907次阅读

    大数据云计算都需要考什么证书?

    大数据和云计算领域包含多种专业证书,其中大数据领域涵盖数据分析类证书、大数据工程类证书、数据治理类证书。云计算领域领域涵盖云计算技术类证书、
    的头像 发表于 02-19 11:05 1188次阅读

    工程大数据平台

    由于无人驾驶系统开发需要长期迭代优化,其过程需要大量的路试数据支撑,经纬恒润针对无人驾驶系统持续运营和持续迭代的需求,开发并在云端部署了车路云工程大数据平台,依托5G网络,具有远程
    的头像 发表于 01-10 17:00 936次阅读
    工程<b class='flag-5'>大数据</b>平台

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 1104次阅读