数据仓库的基本架构及架构图介绍

2018-02-11 10:08 次阅读

  数据仓库简介

  数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

  数据仓库的用途

  1.整合公司所有业务数据,建立统一的数据中心

  2.产生业务报表,用于作出决策

  3.为网站运营提供运营上的数据支持

  4.可以作为各个业务的数据源,形成业务数据互相反馈的良性循环

  5.分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果

  6.开发数据产品,直接或间接地为公司盈利

数据仓库的基本架构及架构图介绍

  数据仓库分层的原因

  1通过数据预处理提高效率,因为预处理,所以会存在冗余数据

  2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大

  3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了

  标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)

  ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。

  pdw:数据仓库层,它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据

  mid:数据集市层,它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度将,它是轻度汇总级别的数据,已经不存在明细的数据了,从广度来说,它包含了所有业务数量。从分析角度讲,大概就是近几年

  app:应用层,数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。

数据仓库的基本架构及架构图介绍

  数据仓库的架构图介绍

数据仓库的基本架构及架构图介绍

  1、数据采集

  数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些ETL操作。

  数据源种类可以有多种:

  日志:所占份额最大,存储在备份服务器上

  业务数据库:如Mysql、Oracle

  来自HTTP/FTP的数据:合作伙伴提供的接口

  其他数据源:如Excel等需要手工录入的数据

  2、数据存储与分析

  HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

  离线数据分析与计算,也就是对实时性要求不高的部分,Hive是不错的选择。

  使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapReduce来做分析与计算。

  Spark性能比MapReduce好很多,同时使用SparkSQL操作Hive。

  3、数据共享

  前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据。

  这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库。

  4、数据应用

  报表:报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层。

  接口:接口的数据都是直接查询数据共享层即可得到。

  即席查询:即席查询通常是现有的报表和数据共享层的数据并不能满足需求,需要从数据存储层直接查询。一般都是通过直接操作SQL得到。

  理想的数据仓库架构

数据仓库的基本架构及架构图介绍

  增加了以下内容:

  数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上

  消息系统:可以加入Kafka防止数据丢失

  实时计算:实时计算使用SparkStreaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中

  机器学习:使用了SparkMLlib提供的机器学习算法

  多维分析OLAP:使用Kylin作为OLAP引擎

  数据可视化:提供可视化前端页面,方便运营等非开发人员直接查询

收藏 人收藏
分享:

评论

相关推荐

一文教会你MES生产统计如何通过ODS实现

数据仓库(DataWarehouse简称DW)创建的目的是用于决策支持,因此建立一个完善可靠的决策支....

发表于 05-28 15:03 209次 阅读
一文教会你MES生产统计如何通过ODS实现

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

摘要:   数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的...

发表于 03-15 12:43 667次 阅读
基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

数据仓库入门之创建数据源

首先需要创建一个数据源,SSAS(分析服务)将利用数据源来连接源数据库。一、准备环境二、启动SSDT....

发表于 02-24 14:48 218次 阅读
数据仓库入门之创建数据源

数据仓库的模型设计

本文详细介绍了关于数据仓库的模型设计,A. 数据建模方法论,B. 分层设计原则,C. 主题域设计方法....

发表于 02-24 14:30 423次 阅读
数据仓库的模型设计

数据仓库是什么_数据仓库有什么特点_数据库和数据仓库区别分析

数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分....

发表于 02-24 14:04 845次 阅读
数据仓库是什么_数据仓库有什么特点_数据库和数据仓库区别分析

数据仓库和多维数据库的区别在哪里

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。多维数据库,可以简单地理解....

的头像 PoisonApple 发表于 02-24 13:46 1786次 阅读
数据仓库和多维数据库的区别在哪里

基于hadoop的数据仓库介绍

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询....

的头像 电子魔法师 发表于 02-11 10:17 1128次 阅读
基于hadoop的数据仓库介绍

基于WebGIS的海量气象及大气污染数据仓库系统

气象及大气污染数据仓库系统作为21世纪新一代的气象信息存储发布管理系统,可以大大提升现有海量气象以及....

发表于 12-08 16:44 105次 阅读
基于WebGIS的海量气象及大气污染数据仓库系统

数据仓库和OLAP技术概述

联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入....

发表于 12-07 16:28 193次 阅读
数据仓库和OLAP技术概述

基于数据仓库技术的数据集成方案

数字化校园是以网络为基础,利用先进的信息化手段和工具,实现从环境(教室、设备等)、资源(课件、讲义、....

发表于 11-10 14:53 129次 阅读
基于数据仓库技术的数据集成方案

保护MySQL数据仓库的最佳实践

数据仓库中最常见的数据库管理系统可能就是开源的MySQL数据库。以下5个小技巧重点介绍了一些保护My....

发表于 09-27 14:10 105次 阅读
保护MySQL数据仓库的最佳实践

采购决策支持系统数据仓库技术的研究_邵丽丽

采购决策支持系统数据仓库技术的研究_邵丽丽

发表于 03-19 11:28 132次 阅读
采购决策支持系统数据仓库技术的研究_邵丽丽

基于数据仓库的科学仪器设备数据分析系统_李玉泉

基于数据仓库的科学仪器设备数据分析系统_李玉泉

发表于 03-04 18:03 163次 阅读
基于数据仓库的科学仪器设备数据分析系统_李玉泉

数据挖掘概念与技术

发表于 10-15 15:27 217次 阅读
数据挖掘概念与技术

基于OLAP的教学质量分析系统设计与实现

发表于 08-24 19:39 154次 阅读
基于OLAP的教学质量分析系统设计与实现

数据仓库的OLAP多维展现技术的研究与应用

基于数据仓库以及联机分析的相关知识,采用ETL和Analysis Services相关技术,通过在线....

发表于 08-08 11:21 378次 阅读
数据仓库的OLAP多维展现技术的研究与应用

数据库与数据仓库的区别

数据库已经在信息技术领域有了广泛的应用,我们社会生活的各个部门,几乎都有各种各样的数据库保存着与我们....

发表于 02-16 18:02 1880次 阅读
数据库与数据仓库的区别

OLAP在电信数据仓库中的设计

通过研究数据仓库在电信业务中的应用,论述电信领域数据仓库和部分联机分析处理的设计开发过程。综述数据仓....

发表于 12-29 17:31 299次 阅读
OLAP在电信数据仓库中的设计

利用数据仓库技术开发文化稽查统计分析系统

提出统计分析系统不应该归入普通管理信息系统,而应该根据用户具体需求,充分分析其本质,利用数据仓库技术....

发表于 09-07 10:09 229次 阅读
利用数据仓库技术开发文化稽查统计分析系统

数据建模在数据仓库建设中的应用

数据仓库是国土资源决策支持系统建设中的核心内容,是决策支持系统处理的基础。建立数据仓库的目的,是把国....

发表于 02-25 15:10 240次 阅读
数据建模在数据仓库建设中的应用

基于点击流数据仓库的用户行为分析

点击流数据揭示了网上消费者在网上的冲浪行为,这些数据记录了用户的行为信息。如何从海量日志数据中自动、....

发表于 12-30 12:46 217次 阅读
基于点击流数据仓库的用户行为分析

基于XML的数据仓库概念模型设计

随着XML 已经成为半结构化数据交换的标准,以XML 作为数据源进行数据仓库的设计已逐渐流行。本文提....

发表于 12-18 17:04 214次 阅读
基于XML的数据仓库概念模型设计

电信数据仓库设计

本文针对佳木斯电信的业务需求,设计了佳木斯电信数据仓库的总体架构,并以营业受理情况主题为例介绍了佳木....

发表于 12-18 17:01 256次 阅读
电信数据仓库设计

统计行业数据仓库构建及应用

数据仓库可以管理和重组统计行业大量分散数据,便于以后分析和决策。介绍数据仓库概念、改进的三层体系结构....

发表于 09-16 10:57 200次 阅读
统计行业数据仓库构建及应用

数据挖掘与数据仓库技术及其在保险业中的应用

文章介绍了数据挖掘中常用技术和数据仓库结构,并且探讨了粗糙集方法,决策树方法以及关联规则方法等数据挖....

发表于 09-04 08:16 240次 阅读
数据挖掘与数据仓库技术及其在保险业中的应用

基于数据仓库的生产智能控制和管理决策系统

本文主要讲述了数据仓库技术在一个企业信息化实际项目中的应用,提出了从数据仓库的建立、数据的抽取到数据....

发表于 08-31 11:23 195次 阅读
基于数据仓库的生产智能控制和管理决策系统

数据仓库跨版本透明查询系统的设计

针对传统数据仓库系统中多维模式进化历史的挥发性问题,提出用版本元数据来记录数据仓库进化过程中的每一种....

发表于 03-31 09:55 327次 阅读
数据仓库跨版本透明查询系统的设计