0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析中Spark,Hadoop,Hive框架该用哪种开源分布式系统

算法与数据结构 来源:算法与数据结构 作者:算法与数据结构 2020-09-17 13:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,大数据开发和分析、机器学习、数据挖掘中,都离不开各种开源分布式系统。最常见的就是 Hadoop、Hive、Spark这三个框架了。最近不少朋友有问到关于这些的问题:

大厂里还有在用 Hadoop 吗?感觉都在用 Spark,有些慌!

SQL boy 大厂面试都问什么?Hadoop、Spark、Flink 都搞过!

听说百度只用 Hadoop,为什么不用业界都在用的 Spark !

为什么百度不用SQL支持数据处理,还在写一堆 Hadoop 脚本!

Java 开发需要对大数据了解多少,Hbase、Hive、Spark 这些吗?

不同的业务场景决定了不同的系统架构选型。Hadoop 用于分布式存储和 Map-Reduce 计算,Spark 用于分布式机器学习,Hive 则是分布式数据库。Hive 和 Spark 是大数据领域内为不同目的而构建的不同产品。二者都有不可替代的优势。Hive 是一个基于Hadoop 的分布式数据库,Spark 则是一个用于数据分析的框架。

这就要求技术人不得不掌握各种开源的技术框架。这就会造成顾此失彼,学完易忘、易混淆的情况。为了解决这个问题,这里推荐给大家一个高效学习和开发的宝藏:一份大数据/分布式开发速查表。内容涵盖:Spark、Hadoop及Hive等日常工作中几乎所有的技术知识点。

对比详细却冗长的技术文档,速查表要显得更加便捷与直观。可以帮大家很轻松的从上面找到具体某项技术的快捷命令与语法,相信能大幅提升开发效率,同时,一些遗忘的知识点也都能通过速查表来快速获取。

由于篇幅原因,下面只展示了速查表的部分内容。无论你是学习进阶,还是日后温习,这套速查表资料都值得好好珍藏。



1.大数据内存计算框架之Spark 必知必会

学习 Spark ,从大方向说,算子大致可以分为以下两类: (1)Transformation 变换 / 转换算子:这种变换并不触发提交作业,这种算子是延迟执行的,也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发。 (2)Action 行动算子:这类算子会触发 SparkContext 提交 job 作业,并将数据输出到 Spark 系统。

Spark 必知必会:Transformation 算子

Spark 必知必会:Action算子

2.大数据分布式文件系统之Hadoop 必知必会

内容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 两种风格,都可使用,效果相同。

Hadoop 必知必会:Hadoop Shell

3.大数据分布式数据库之Hive必知必会

Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行,并可以针对数据仓库进行分布式交互查询。 内容包括:Hive 内置函数速查表,具体有关系、数学及逻辑运算符、数值计算、日期函数、条件函数、字符串函数、聚合函数、高级函数及窗口函数等。

Hive 必知必会:关系运算符

Hive 必知必会:数值计算

Hive 必知必会:字符串函数

原文标题:在百度,Spark,Hadoop,Hive ,哪个更香?

文章出处:【微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    807

    浏览量

    46925
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    16998
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21288
  • hive
    +关注

    关注

    0

    文章

    12

    浏览量

    4149

原文标题:在百度,Spark,Hadoop,Hive ,哪个更香?

文章出处:【微信号:TheAlgorithm,微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2022全新版!Java分布式架构设计与开发实战(完结)

    2022全新版!Java分布式架构设计与开发实战(完结) 分库分表实战:Java海量数据存储架构设计 在现代互联网应用,随着业务规模的指数级增长,数据库性能瓶颈已成为制约
    发表于 03-30 15:20

    TiDB分布式数据库运维实践

    TiDB 是 PingCAP 开发的开源分布式关系型数据库,兼容 MySQL 5.7 协议,底层存储基于 TiKV(分布式 KV 存储)和 RocksDB。它解决的核心问题是:当单机
    的头像 发表于 03-04 15:44 282次阅读

    如何解决分布式光伏计量难题?

    %。同时,可提升发电效率、降低发电成本的新型技术逐步落地,推动光伏系统向更高效、更紧凑的方向发展,进而对电表在精度、数据更新速度及适配性方面也提出了更高要求。 分布式光伏遇计量难题 分布式
    的头像 发表于 11-07 14:55 408次阅读
    如何解决<b class='flag-5'>分布式</b>光伏计量难题?

    工业数采网关在分布式设备运维管理的作用

    工业数采网关在分布式设备运维管理扮演着 数据枢纽、智能分析核心与远程控制中枢 的多重角色,其作用贯穿设备监控、故障预警、运维调度及能效优化全流程,是提升
    的头像 发表于 09-19 10:53 819次阅读
    工业数采网关在<b class='flag-5'>分布式</b>设备运维管理<b class='flag-5'>中</b>的作用

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统

    北京华盛恒辉电磁兼容 (EMC) 大数据智能管理系统精简解析 在 EMC 大数据分析,电磁兼容与电磁干扰(EMI)智能管理系统是保障设备稳
    的头像 发表于 09-17 14:58 758次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统
    的头像 发表于 09-17 14:58 721次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b><b class='flag-5'>中</b>的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统
    的头像 发表于 09-17 14:42 1040次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据分析</b><b class='flag-5'>中</b>的智能管理<b class='flag-5'>系统</b>

    【节能学院】Acrel-1000DP分布式光伏监控系统在奉贤平高食品 4.4MW 分布式光伏应用

    摘要:在“双碳”和新型电力系统建设背景下,分布式光伏接入比例不断提高,对配电网电压、调度运行及调峰等环节造成强烈冲击。本文设计包含平台层、设备层二层架构体系的分布式光伏管控平台,以及小容量工商业
    的头像 发表于 08-23 08:04 3654次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏监控<b class='flag-5'>系统</b>在奉贤平高食品 4.4MW <b class='flag-5'>分布式</b>光伏<b class='flag-5'>中</b>应用

    分布式光伏发电监测系统技术方案

    分布式光伏发电监测系统技术方案 柏峰【BF-GFQX】一、系统目标 :分布式光伏发电监测系统旨在通过智能化的监测手段,实现对
    的头像 发表于 08-22 10:51 3462次阅读
    <b class='flag-5'>分布式</b>光伏发电监测<b class='flag-5'>系统</b>技术方案

    园区分布式光伏发电监控系统

    : 一、实时掌握发电状态,保障高效运行 动态监控发电数据    分布式光伏系统的发电量受光照、温度、设备状态等因素影响,波动较大。监控系统可实时采集光伏组件、逆变器、汇流箱等设备的电压
    的头像 发表于 07-31 15:49 1224次阅读
    园区<b class='flag-5'>分布式</b>光伏发电监控<b class='flag-5'>系统</b>

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为
    的头像 发表于 07-14 11:15 1207次阅读

    分布式光伏发电监控系统

    对高、低压并网分布式光伏电站的升压系统、光伏逆变器等设备进行全面监控,采集微机保护装置、自动控制设备、电能质量监测装置、光伏逆变器、一体化电源等设备数据,并提供有功功率控制(AGC)、电压无功综合
    的头像 发表于 06-25 13:41 1139次阅读
    <b class='flag-5'>分布式</b>光伏发电监控<b class='flag-5'>系统</b>

    润和软件StackRUNS异构分布式推理框架的应用案例

    江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的StackRUNS异构分布式推理框架已在实际场景取得显著成效,成功应用于大型园区多模态模型演练及高校满血版DeepSeek-MoE 671B的运行,有效推动了大模型技术
    的头像 发表于 06-13 09:11 1433次阅读
    润和软件StackRUNS异构<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>的应用案例

    润和软件发布StackRUNS异构分布式推理框架

    当下,AI模型规模持续膨胀、多模态应用场景日益复杂,企业正面临异构算力资源碎片化带来的严峻挑战。为应对行业痛点,江苏润和软件股份有限公司(以下简称“润和软件”)正式发布自主研发的StackRUNS异构分布式推理框架,高效融合异构算力,精细化配置算力资源,释放算力效能。
    的头像 发表于 06-13 09:10 1597次阅读
    润和软件发布StackRUNS异构<b class='flag-5'>分布式</b>推理<b class='flag-5'>框架</b>

    多通道电源管理芯片在分布式能源系统的优化策略

    理、可靠性设计以及系统集成为主轴展开分析,为分布式能源系统效能提升提供坚实理论基石与创新实践路径。 关键词: 多通道电源管理芯片;分布式能源
    的头像 发表于 05-16 15:22 1082次阅读