0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据的4个关键技术

jf_78858299 来源:Datawhale 作者:牧小熊 2023-05-10 15:30 次阅读

我们引用了大数据的4V特征

  • Volume 大数据数据量大,数据量单位为T 或者P级
  • Variety 数据类型多,大数据包含多种数据维度 比如 日志、视频、图片
  • Value 价值密度低,商业价值高 比如监控视频,其中关键1-2秒可能具有极高的价值
  • Velocity 要求处理速度块

1.2 大数据的4个关键技术

图片

1.3 ETL/ELT的区别

ETL 包含的过程是 Extract、Transform、Load的缩写

包括了数据抽取 => 转换 => 加载三个过程

图片

在数据源抽取后首先进行转换,然后将转换的结果写入目的地

ETL 包含的过程是 Extract、Load、Transform的缩写

ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换

目前数据主流框架是ETL,重抽取和加载,轻转换,搭建的数据平台属于轻量级

ELT架构,在提取完成之后,数据加载会立即开始,更省时,数据变换这个过程根据后续使用需求在 SQL 中进行,而不是在加载阶段

ELT框架的优点就是保留了原始数据,能够将原始数据展现给数据分析人员

ETL相关软件:

  • 商业软件:Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services等
  • 开源软件:Kettle、DataX、Sqoop

1.4 大数据与数据库管理系统

DataBase Management System,数据库管理系统,可以管理多个数据库

目前关系型数据库在DBMS中占据主流地位,常用的关系型数据库有Oracle、MySQL和SQL Server

其中SQL就是关系型数据库的查询语言

SQL是与数据直接打交道的语言,是与前端、后端语言进行交互的“中台”语言

SQL语言特点:

  • 价值大,技术、产品、运营人员都要掌握SQL,使用无处不在
  • 很少变化,SQL语言从诞生到现在,语法很少变化
  • 入门并不难,很多人都会写SQL语句,但是效率差别很大

除了关系型数据库还有文档型数据库MongoDB、键值型数据库Redis、列存储数据库Cassandra等

提到大数据就不得不说Hive

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive与关联型数据库RDBMS相比

不足:

  • 不能像 RDBMS 一般实时响应,Hive 查询延时大
  • 不能像 RDBMS 做事务型查询,Hive 没有事务机制
  • 不能像 RDBMS 做行级别的变更操作(包括插入、更新、删除)

优点:

  • Hive 没有定长的 varchar 这种类型,字符串都是 string
  • Hive 是读时模式,保存表数据时不会对数据进行校验,而在读数据时将校验不符合格式的数据设置为NULL

1.5 OLTP/OLAP

在数据仓库架构中有非常相关的2个概念,一个是OLTP,一个是OLAP

图片

  • OLTP( On-Line Transaction Processing )

联机事务处理,主要是对数据的增删改

记录业务发生,比如购买行为,发生后,要记录是谁在什么时候做了什么事,数据会以增删改的方式在数据库中进行数据的更新处理操作

实时性高、稳定性强,ATM,ERP,CRM,OA等都属于OLTP

  • OLAP( On-Line Analytical Processing )

联机分析处理,主要是对数据的分析查询

当数据积累到一定的程度,需要做总结分析,BI报表=> OLAP

OLTP产生的数据通常在不同的业务系统中

OLAP需要将不同的数据源 => 数据集成 => 数据清洗 => 数据仓库,然后由数据仓库统一提供OLAP分析

2.大数据计算

2.1 大数据计算模式

大数据计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理 MapReduce、Spark等
流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台
图计算 针对大规模图结构数据的处理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算 大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、Impala等

2.2 Lambda大数据框架

图片

Lambda架构:

Batch Layer(批处理层),对离线的历史数据进行预计算,能让下游进行快速查询。因为基于完整的数据集,准确性能得到保证。可以用Hadoop、Spark 和 Flink 等计算框架

Speed Layer(加速处理层),处理实时的增量数据,加速层的数据不如批处理层完整和准确,但重点在于低延迟。可以用 Spark streaming、Storm 和 Flink 等计框架算

Serving Layer(合并层),将历史数据计算与实时数据计算合并,输出到数据库,供下游分析

2.3 大数据典型技术

  • Hadoop

一个文件系统,外加一个离线处理框架MapReduce,由于提供的上层api不太友好,加上MapReduce 处理框架比较慢,基本上都用作文件系统

  • Spark

本身是一个执行引擎,不保存数据,所以需要外部的文件系统(通常会基于hadoop)提出了内存计算的概念,即尽可能把数据放到内存中,还提供了良好的上层使用接口,包括spl语句(spark sql)处理数据十分方便。相比 Hadoop MapReduce 获得了百倍的性能提升,基本上用它来做离线数据处理

  • Flink

分布式实时计算框架,具有超高的性能,支持Flink流式计算与Storm性能差不多,支持毫秒级计算

Spark 和 Flink的区别

图片

3.大数据实践

本文主要讲解了大数据的概念和基础知识,帮助读者对大数据有一个基本了解。如果对实践有学习需要(可以留言),我再花时间整理大数据的实践讲解:Pyspark进行Titanic乘客生存预测。使用pyspark进行初步的大数据操作,数据选取Kaggle泰坦尼克号项目的数据,通过Spark读取数据,并利用Spark中的ML工具对数据进行构建模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    738

    浏览量

    43461
  • volume
    +关注

    关注

    0

    文章

    5

    浏览量

    7789
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136587
收藏 人收藏

    评论

    相关推荐

    一文汇总大数据四大方面十五大关键技术

    本文针对大数据关键技术大数据采集、大数据预处理、大数据存储、大数据分析挖掘四大方面的15大
    发表于 11-11 15:46 1w次阅读

    CDMA原理与关键技术

    CDMA原理与关键技术
    发表于 08-16 20:25

    工业4.O的关键技术

    和灵活性在内的智能制造设计,同时提供制造流程的实时视图、连通性和通信。以下为促成更智能、更高效制造的工业4.0的一些关键技术,:兼容的工业通信。为了获得完整制造系统的透明视图,所有数据必须通过具有共同
    发表于 03-06 06:45

    智能穿戴产业的五大关键技术

    运算与抓取显然是难以满足物联网时代发展需求的,于是,具有自我运算、判断能力的人工智能技术势必将成为下一关键技术。当前,不论是IBM,还是阿里、百度、360等都已经开始布局云平台。显然,他们已经
    发表于 05-09 06:20

    4G移动通信关键技术及特征是什么?

    4G移动通信关键技术及特征是什么?
    发表于 05-26 06:37

    POE的关键技术有哪些?

    使用以太网线供电的优势是什么?PoE设备是怎么供电的?POE的关键技术有哪些?
    发表于 06-10 09:26

    视觉导航关键技术及应用

    由于视觉导航技术的应用越来越普及 ,因此 ,有必要对视觉导航中的关键技术及应用进行研究。文章对其中的图像处理技术和定位与跟踪技术进行了详细研究 ,并与此相对应 ,介绍的相关的应用。
    发表于 09-25 08:09

    大数据时代,这十五大关键技术你竟不知道?

    近年来,大数据来势汹汹,渗透到各行各业,带来了一场翻天覆地的变革。让人们越发认识到,比掌握庞大的数据信息更重要的是掌握对含有意义的数据进行专业化处理的技术
    发表于 12-06 11:08 0次下载

    贵州省大数据领域技术榜单“大数据安全与隐私保护关键技术”项目启动

    记者从贵州省科技厅获悉,日前,贵州省大数据领域技术榜单“大数据安全与隐私保护关键技术”项目启动,将对公共大数据安全、隐私保护等课题开展研究。
    发表于 05-09 16:08 1600次阅读

    阿里将成立名为“平头哥”的半导体公司!为什么是“平头哥”?

    张建锋表示,如今信息通信技术飞快发展,芯片作为基础性环节的作用日益重要,为此阿里巴巴决定涉足芯片领域。随着数据的海量爆发,目前发展大数据和智慧城市的关键技术点已经成为如何获得和处理复杂
    的头像 发表于 09-21 11:09 1w次阅读

    5G来临之前IT需要提前准备什么

    亿,企业和机构的人工智能利用率将达到86%,数据利用率将达到80%,智能将像空气一样泛在。 ICT是全球数字经济和智能世界的基石,AI、云、大数据、IoT等关键技术日新月异,依托数字化平台,所有的企业和机构(包括电信运营商
    发表于 03-26 09:37 777次阅读

    水文大数据标准化方法和水文大数据共享平台关键技术的设计和资料概述

    本文根据水文数据的特点探讨了水文大数据标准化方法,探索数据预处理、数据索引、数据高效存储等水文大数据
    发表于 10-15 16:31 12次下载
    水文<b class='flag-5'>大数据</b>标准化方法和水文<b class='flag-5'>大数据</b>共享平台<b class='flag-5'>关键技术</b>的设计和资料概述

    AGI能力涌现重新回归AI赋能之路

    2023年9月8日,腾讯全球数字生态大会在深圳成功举办,大会致力于汇聚全球智慧洞察数字发展新机遇,描绘云、AI、大数据、安全等关键技术的发展蓝图。
    的头像 发表于 09-12 17:29 911次阅读

    圆满落幕!NVIDIA 携前沿 AI 技术与产品,惊艳亮相 2023 腾讯全球数字生态大会!

    9 月 7-8 日, 2023 腾讯全球数字生态大会 在深圳宝安顺利举行,大会以“智变加速,产业焕新”为主题,致力于汇聚全球智慧洞察数字发展新机遇,描绘云、AI、大数据、安全等关键技术的发展蓝图
    的头像 发表于 09-12 20:40 643次阅读
    圆满落幕!NVIDIA 携前沿 AI <b class='flag-5'>技术</b>与产品,惊艳亮相 2023 腾讯全球数字生态大会!

    解锁电梯大数据平台的商业价值与未来展望

    在智能建筑领域,电梯大数据平台作为关键技术之一,正逐渐成为行业的焦点。本文深圳梯云物联科技有限公司小编将深入探讨电梯大数据平台的商业价值以及未来展望,为您揭示这一领域的无限可能。
    的头像 发表于 03-25 10:51 140次阅读
    解锁电梯<b class='flag-5'>大数据</b>平台的商业价值与未来展望