0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据仓库的基本架构及架构图介绍

姚小熊27 来源:网络整理 2018-02-11 10:08 次阅读

数据仓库简介

数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的用途

1.整合公司所有业务数据,建立统一的数据中心

2.产生业务报表,用于作出决策

3.为网站运营提供运营上的数据支持

4.可以作为各个业务的数据源,形成业务数据互相反馈的良性循环

5.分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果

6.开发数据产品,直接或间接地为公司盈利

数据仓库的基本架构及架构图介绍

数据仓库分层的原因

1通过数据预处理提高效率,因为预处理,所以会存在冗余数据

2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大

3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了

标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)

ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。

pdw:数据仓库层,它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据

mid:数据集市层,它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度将,它是轻度汇总级别的数据,已经不存在明细的数据了,从广度来说,它包含了所有业务数量。从分析角度讲,大概就是近几年

app:应用层,数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。

数据仓库的基本架构及架构图介绍

数据仓库的架构图介绍

数据仓库的基本架构及架构图介绍

1、数据采集

数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些ETL操作。

数据源种类可以有多种:

日志:所占份额最大,存储在备份服务器上

业务数据库:如Mysql、Oracle

来自HTTP/FTP的数据:合作伙伴提供的接口

其他数据源:如Excel等需要手工录入的数据

2、数据存储与分析

HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

离线数据分析与计算,也就是对实时性要求不高的部分,Hive是不错的选择。

使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapReduce来做分析与计算。

Spark性能比MapReduce好很多,同时使用SparkSQL操作Hive。

3、数据共享

前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据。

这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库。

4、数据应用

报表:报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层。

接口:接口的数据都是直接查询数据共享层即可得到。

即席查询:即席查询通常是现有的报表和数据共享层的数据并不能满足需求,需要从数据存储层直接查询。一般都是通过直接操作SQL得到。

理想的数据仓库架构

数据仓库的基本架构及架构图介绍

增加了以下内容:

数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

消息系统:可以加入Kafka防止数据丢失

实时计算:实时计算使用SparkStreaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中

机器学习:使用了SparkMLlib提供的机器学习算法

多维分析OLAP:使用Kylin作为OLAP引擎

数据可视化:提供可视化前端页面,方便运营等非开发人员直接查询

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据仓库
    +关注

    关注

    0

    文章

    58

    浏览量

    10396
收藏 人收藏

    评论

    相关推荐

    基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

    摘要:数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大
    发表于 03-15 12:43

    应用部署架构图

    笔者一个项目中用到的架构图,Linux+Tomcat应用服务器两台,MSSQL2012数据库服务器3台做成了故障转移集群。
    发表于 07-15 06:58

    上海逻迅丨节能降耗 系统架构图

    上海逻迅丨节能降耗 系统架构图
    发表于 10-09 13:58

    RT-Thread 架构图

    RT-Thread 架构图:RT-Thread开发指南开源地址内核层:RT-Thread 内核,是 RT-Thread 的核心部分,包括了内核系统中对象的实现,例如多线程及其调度、信号量、邮箱
    发表于 12-16 08:15

    PCIE基本概念与拓扑架构图

    1 PCIE基本概念1.1 PCIE拓扑架构图1.2 PCIE Switch内部结构图1.3 PCIE协议结构图2 PCIE枚举原理2.1 Type0&Type1配置头空间2.2 拓扑示例
    发表于 02-16 06:08

    电信数据仓库设计

    本文针对佳木斯电信的业务需求,设计了佳木斯电信数据仓库的总体架构,并以营业受理情况主题为例介绍了佳木斯电信数据仓库数据模型的设计过程。
    发表于 12-18 17:01 14次下载

    电脑主板架构图

    主板架构图1(早期主板)
    发表于 05-31 14:15 1w次阅读
    电脑主板<b class='flag-5'>架构图</b>

    主板架构图1(早期主板)

    主板架构图1(早期主板)
    发表于 05-21 11:02 1520次阅读
    主板<b class='flag-5'>架构图</b>1(早期主板)

    主板架构图2(P2.P3.P4主板)

    主板架构图2(P2.P3.P4主板)
    发表于 05-21 11:03 1298次阅读
    主板<b class='flag-5'>架构图</b>2(P2.P3.P4主板)

    深圳市圣奇仕科技有限公司组织架构图

    深圳市圣奇仕科技有限公司组织架构图
    发表于 11-04 15:53 1489次阅读

    什么是paas平台_paas逻辑架构图

    本文开始介绍了什么是PAAS平台和PAAS的特点,其次分析了PAAS平台的发展前景,最后介绍了详细的介绍paas逻辑架构图
    的头像 发表于 01-30 18:00 2.7w次阅读
    什么是paas平台_paas逻辑<b class='flag-5'>架构图</b>

    数据仓库是什么_数据仓库的特点_数据仓库数据库区别

    本文开始介绍数据仓库是什么,其次详细介绍数据仓库的特点、数据仓库的基本架构
    的头像 发表于 02-11 10:42 2.4w次阅读
    <b class='flag-5'>数据仓库</b>是什么_<b class='flag-5'>数据仓库</b>的特点_<b class='flag-5'>数据仓库</b>与<b class='flag-5'>数据</b>库区别

    如何画架构图

    维基百科、百度百科其实都没有关于它的直接定义。不过我们可以进行拆分理解:架构图=架构+图这样问题就转化成,什么是架构,以及什么是图?关于架构,百度百科上是这样定义的
    的头像 发表于 01-13 14:38 963次阅读

    如何画技术架构图

    在我们做系统架构设计时,如何快速的向外界传达我们的设计思路。4+1试图适合我们厘清思路、表达自己的想法。在我们汇报,争取领导层的认同支持更适合用架构图来表述我们的观点。架构图包括总体架构
    的头像 发表于 02-06 17:39 2461次阅读

    基石DDPM(模型架构篇),最详细的DDPM架构图

    DDPM(模型架构篇):也就是本篇文章。在阅读源码的基础上,本文绘制了详细的DDPM模型架构图,同时附上关于模型运作流程的详细解说。本文不涉及数学知识,直观帮助大家了解DDPM怎么用,为什么好用。
    的头像 发表于 06-29 16:32 6402次阅读
    基石DDPM(模型<b class='flag-5'>架构</b>篇),最详细的DDPM<b class='flag-5'>架构图</b>解