0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据应用的开发流程

RG15206629988 来源:行业学习与研究 2023-02-22 16:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大数据常见处理流程包括:原始数据采集、数据清洗、数据存储、统计分析、存储至数据仓库、数据导出、导入数据库、数据可视化。

49f2d180-b1d5-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

一、原始数据采集

原始数据采集的方式包括:爬虫程序采集、应用数据采集。

爬虫程序采集可在互联网中爬取需要的数据。

应用数据采集是指通过集群或分布式部署方式,将应用程序的日志文件存储于多个服务器中,再将日志文件数据集中存储。

二、数据清洗和数据存储

因为采集的数据中包含不符合要求的数据,如格式冲突的数据、漏项的数据、错误的数据等,所以需要数据清洗将不符合要求的数据去除。

数据清洗过程可以较简单,也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗(含个人理解);也可以通过复杂的机器学习模型清洗数据。

数据清洗可借助ETL软件(根据百度百科:ETL是数据仓库技术)。一般,数据被清洗后,数据量较大,无法存储于计算机内存中,因此,需将数据存储于HDFS(数据存储)中或其他大数据存储方式中。

三、统计分析和数据仓库

统计分析可通过选择合适统计分析工具完成。可使用MapReduce技术实现并行统计分析,也可使用Hive数据仓库(Hive数据仓库具有数据整理、特殊查询、分析存储功能)、Python、R等进行统计分析。

统计分析的难点不在于选择统计分析工具,而在于需求和分析对象。个人理解:具体的需求和分析对象多样导致统计分析不能简单地以某一方式解决所有统计分析问题。

统计分析结束后,数据可被存储于数据仓库中,可使用Hive数据仓库搭建所需的数据仓库。数据仓库的数据不能直接向用户呈现。

四、数据导出和数据库

因为数据仓库的数据不能直接向用户呈现,所以需要将数据从数据仓库导出,并将数据导入数据库中以实现数据可视化。数据导出可使用Sqoop(Sqoop可提供数据导入功能)。

数据库一般为关系型数据库。

五、数据可视化

数据可视化的目标是使数据可被直观展示,传统图形化展示方式种类较多(根据网络资料理解:传统图形化展示方式包括条形图、排列图、饼图、环形图等)。大数据新型可视化方式包括:气泡图、数据画像、地图涂色等。

六、大数据应用案例

下文介绍Hadoop自带的MapReduce应用案例WordCount,WordCount可统计文件的词频。

(1)启动Hadoop系统服务,需启动HDFS与Yarn服务(根据百度百科:Yarn是新的Hadoop资源管理器,是通用资源管理系统)。

4a33be2a-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内命令为HDFS启动命令,绿框内命令为Yarn服务启动命令,图片来源:根据学堂在线《大数据导论》资料制作

(2)检查Hadoop安全模式是否为“OFF”状态,如果Hadoop安全模式的状态为“ON”,则只能读取HDFS中的数据,不能向HDFS中写入数据。

(3)准备需要处理的数据,即查看文本文件中的内容。

4a9bfe2c-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内命令为查看文件内容命令,绿框内为文件中的内容,图片来源:根据学堂在线《大数据导论》资料制作

(4)执行WordCount应用程序。WordCount的具体命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被统计文件的目录名与文件名 统计结果输出文件目录名与文件名。

4ac8966c-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内为WordCount应用程序统计结果输出文件的内容,图片来源:根据学堂在线《大数据导论》资料制作






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    4095

    浏览量

    68713
  • 机器学习
    +关注

    关注

    67

    文章

    8571

    浏览量

    137457
  • python
    +关注

    关注

    59

    文章

    4892

    浏览量

    90472
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10159

原文标题:大数据相关介绍(11)——大数据应用的开发流程

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 大数据赋能电商,选品上架一键通全

    被繁琐的上架流程消耗大量时间精力,最终陷入“费力不讨好”的运营僵局。而AI大数据模型的强势介入,彻底打破了这一困境,真正实现“AI 大数据赋能电商,选品上架一键通全局”,让电商运营从“被动摸索”走向“主动掌控”
    的头像 发表于 05-12 16:03 102次阅读

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 293次阅读

    基于Vitis Model Composer完成全流程AI Engine开发

    基于Vitis Model Composer进行AI Engine(AIE)开发,核心优势体现在AIE专属优化、开发流程简化、灵活的适配性、高效验证及量产适配等方面。
    的头像 发表于 12-31 11:20 6438次阅读
    基于Vitis Model Composer完成全<b class='flag-5'>流程</b>AI Engine<b class='flag-5'>开发</b>

    大数据解决方案如何实施

    大数据解决方案实施的难点在于以下几点:  1.很少有优质可用的数据  在数聚股份看来,这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据
    的头像 发表于 12-25 18:22 1232次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之一。 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。 为了满足并超越客户的期望,大数据可视化工具应该具
    的头像 发表于 12-24 17:05 450次阅读
    最受欢迎的<b class='flag-5'>大数据</b>可视化工具

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 428次阅读

    明晚8点|睿擎文件系统实战:从开发到发布全流程解析

    从文件操作到镜像发布,一次直播掌握完整开发流程!在嵌入式系统开发中,文件系统是数据存储、配置管理和资源访问的核心基础。然而在实际开发中,文件
    的头像 发表于 11-11 11:53 884次阅读
    明晚8点|睿擎文件系统实战:从<b class='flag-5'>开发</b>到发布全<b class='flag-5'>流程</b>解析

    【直播预告】下周三晚8点|睿擎文件系统实战:从开发到发布全流程解析

    从文件操作到镜像发布,一次直播掌握完整开发流程!在嵌入式系统开发中,文件系统是数据存储、配置管理和资源访问的核心基础。然而在实际开发中,文件
    的头像 发表于 11-06 18:05 2127次阅读
    【直播预告】下周三晚8点|睿擎文件系统实战:从<b class='flag-5'>开发</b>到发布全<b class='flag-5'>流程</b>解析

    湖北大数据集团到访维智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访维智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 854次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 384次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    数据,结合大数据分析、流程自动化及云边协同技术,实现电磁环境全生命周期管理。以下从五大维度精简解析: 应用案例 北京华盛恒辉、北京五木恒润研发的 EMC/EMI 智能管理系统已落地应用,成效显著,为系统推广提供有力支撑。 一、
    的头像 发表于 09-17 14:58 866次阅读

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 896次阅读

    如何利用数据+AI重塑业务流程

    在瞬息万变的商业世界里,企业一直在通过业务流程再造寻找提升竞争力的突破口。从ERP热潮,到数字技术的全面开花,每一次技术浪潮都推动着企业优化流程、提升效率。如今,站在AI和数据驱动的时代,企业应该思考的不是AI能不能取代人,而是
    的头像 发表于 09-04 14:37 1160次阅读

    单片机开发流程包括什么?

    单片机开发是一个系统性的工程,从需求明确到最终产品落地,需要经历多个相互关联的流程环节,每个环节都对最终产品的性能和质量有着重要影响。 一、需求分析与文档梳理 开发流程的第一步是需求分
    的头像 发表于 07-22 11:21 1339次阅读

    RK3568 EVB开发板 深度休眠与快速醒的工作流程

    RK3568 EVB开发板关于深度休眠和唤醒流程的分析
    的头像 发表于 07-22 09:49 1203次阅读
    RK3568 EVB<b class='flag-5'>开发</b>板 深度休眠与快速醒的工作<b class='flag-5'>流程</b>