0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据系统包括哪些

RG15206629988 来源:行业学习与研究 2023-02-16 18:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目前,主流的大数据平台包括:Hadoop、Spark。

Hadoop是分布式(根据网络资料理解:分布式与集中式相对应,对于大量数据计算,集中于一台计算机中计算需耗费较长时间,通过将计算分布于多个计算机,节约整体计算时间)系统基础架构。Hadoop的两个功能包括:数据存储(HDFS)、数据处理(MapReduce)。

Spark是专为大规模数据处理而设计的快速通用计算引擎。Spark不提供文件管理系统,没有数据存储功能;Spark的数据计算基于内存实现,数据处理速度快。

一、HDFS(分布式文件存储)

数据通过HDFS放置于一个Hadoop集群中,Hadoop集群通常由几台至上千台的计算机组成。根据课程介绍理解,百度公司最大的Hadoop集群已超过4000台计算机。

数据在存储于HDFS前,被分割成若干数据块,每个数据块储存于一台计算机中。不同Hadoop版本所分割的数据块大小不同,Hadoop1.0版本中数据块大小为64MB,Hadoop2.0版本中数据块大小为128MB。Hadoop也可以设置数据块大小(含个人理解)。

e1266bfa-addb-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

二、MapReduce(分布式数据处理架构)

MapReduce是分布式计算框架。开发人员在运用MapReduce处理数据时,MapReduce将指定某一Map函数,将一组键值对(根据网络资料理解:键值对可以根据一个值获得对应的一个值)映射成一组新的键值对,并指定并发的Reduce函数,保证所有Map函数映射的结果可以进行Reduce规约(根据网络资料理解:通过某一连接动作将所有元素汇总为一个结果的过程)运算。

e1bec99a-addb-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

在运用MapReduce框架编写计算机程序时,开发人员只需考虑业务逻辑,不需考虑并行管理。

三、MapReduce的WordCount示例

WordCount是统计文件夹所有文本中某一词出现的次数。

其中,WordCount的Map函数程序代码如下:

Map(K, V){

For each word w in V

Collect(w,1);

}

WordCount的Map函数中的K代表文本中的词,WordCount的Map函数的功能是将文本中的每个词与1建立键值对,即每个词对应一个“1”。

WordCount的Reduce函数程序代码如下:

Reduce(K.V[]){

int count=0;

For each v in V

count+= v;

Collect(K,count);

}

WordCount的Reduce函数将经过WordCount的Map函数处理的相同词对应的“1”求和,得出某一词的出现的次数。

该WordCount示例中,Map和Reduce函数的具体运行如图一所示:

首先,所有数据被整理成单行数据,图一流程图中具有三个节点(个人理解:节点可被认为是计算机),图一中的三行数据被分行输入到三个节点中。

然后,Map函数运行,将每个词与1建立键值对。

Map函数运行结束后,Shuffle过程运行,Shuffle过程是MapReduce内设过程,可将具有相同词的键值对中的“1”集合至一个List(列表)中。如图一所示,因为“Bear”一词出现了两次,所以经过Shuffle过程后,“Bear”所对应的List为(1,1)。

最后,Reduce函数运行,将Shuffle过程所生成的List求和,完成对某一词出现的次数统计。

e1f1375e-addb-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据存储
    +关注

    关注

    5

    文章

    1037

    浏览量

    53006
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10140
  • 大数据系统
    +关注

    关注

    0

    文章

    7

    浏览量

    2008

原文标题:大数据相关介绍(9)——大数据系统(上)

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 180次阅读

    轻松入门大数据 一站式完成核心能力构建 | 更新完结

    业务决策的时效性。本文从实战角度出发,系统梳理大数据查询优化的核心思路和实战技巧,帮助读者建立完整的优化知识体系。 一、优化的起点:理解查询的执行过程 在动手优化之前,首先要理解一条查询语句在数据平台中是如何被执行的
    的头像 发表于 03-23 14:05 350次阅读

    狂野大数据(六期)课程- 资源分享

    权力正在从专家手中扩散,流向每一个业务人员、每一套自治系统。 我们正在步入大数据智能化的新阶段:自动建模与自治平台时代。 从“手工作坊”到“工业流水线” 回顾数据建模的演进,很像一场工业革命。早期,每一次建模都是一次
    的头像 发表于 03-11 13:31 301次阅读

    大数据解决方案如何实施

    大数据解决方案实施的难点在于以下几点:  1.很少有优质可用的数据  在数聚股份看来,这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据
    的头像 发表于 12-25 18:22 1137次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之一。 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。 为了满足并超越客户的期望,大数据可视化工具应该具
    的头像 发表于 12-24 17:05 363次阅读
    最受欢迎的<b class='flag-5'>大数据</b>可视化工具

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 333次阅读

    湖北大数据集团到访维智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访维智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 748次阅读

    东软集团领跑中国医疗大数据解决方案市场

    近日,国际数据公司(IDC)权威发布《中国医疗大数据解决方案市场份额,2024:全域数据支撑》(Doc#CHC53739825,2025年9月)报告。报告显示,在中国医疗大数据解决方案
    的头像 发表于 10-30 17:09 814次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心价值在于降低
    的头像 发表于 10-30 11:29 315次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    北京华盛恒辉电磁兼容 (EMC) 大数据智能管理系统精简解析 在 EMC 大数据分析中,电磁兼容与电磁干扰(EMI)智能管理系统是保障设备稳定、提升
    的头像 发表于 09-17 14:58 756次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:58 715次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据</b>分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:42 1034次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据</b>分析中的智能管理<b class='flag-5'>系统</b>

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 786次阅读

    华录集团亮相2025中国国际大数据产业博览会

    近日,2025中国国际大数据产业博览会(简称数博会)在贵阳开幕。中国电科以“数聚AI动能 智引发展未来”为主题亮相成果展览会,系统展示数据基础设施、数据要素、人工智能+等领域的30余项
    的头像 发表于 09-01 16:55 1106次阅读

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13