new
This commit is contained in:
@@ -0,0 +1 @@
|
||||
在这里,主要是提供给数据产品和数据分析使用的数据,一般会存放在 ES、PostgreSql、Redis等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据,一般就放在这里。
|
||||
@@ -0,0 +1,25 @@
|
||||
数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从 ODS 层中获得的数据按照主题建立各种数据模型。DW层又细分为 DWD(Data Warehouse Detail)层、DWM(Data WareHouse Middle)层和DWS(Data WareHouse Servce)层。
|
||||
|
||||
## 数据明细层:DWD(Data Warehouse Detail)
|
||||
|
||||
该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证。同时,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联。
|
||||
|
||||
另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性,后文会举例说明。
|
||||
|
||||
## 数据中间层:DWM(Data WareHouse Middle)
|
||||
|
||||
该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。
|
||||
|
||||
直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。
|
||||
|
||||
## 数据服务层:DWS(Data WareHouse Servce)
|
||||
|
||||
又称数据集市或宽表。按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
|
||||
|
||||
一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称该层的表为宽表。
|
||||
|
||||
在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定,也可以去掉DWM这一层,只留DWS层,将所有的数据在放在DWS亦可。
|
||||
|
||||
|
||||
^[[字典数据定义]]
|
||||
^[[核心数据域]]
|
||||
@@ -0,0 +1,3 @@
|
||||
“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。
|
||||
|
||||
一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。
|
||||
@@ -0,0 +1,4 @@
|
||||
目标
|
||||
通过熟悉业务,了解业务对于数据的需要,希望达到什么目标。进而确定数据仓库要解决什么问题。
|
||||
报表
|
||||
指标
|
||||
@@ -0,0 +1,67 @@
|
||||
从某个角度来看,数据中台很帖近数据仓库
|
||||
|
||||
## 数据中台功能模块图
|
||||
|
||||

|
||||
|
||||
从上所可知,基于数据中台,要实现的是基于数据的应用体系:
|
||||
* 数据图表化
|
||||
* 基于数据,对业务进行分析
|
||||
* 基于数据,提供的服务
|
||||
|
||||
因此,我们要实现这一平台,需要做的,并不是业务本身,而是通过对业务的分析,找到便于分析的数据。
|
||||
为了实现这一目标,区别于一众业务服务,对业务进行建模,数据中台,要基于业务的分析,对数据进一步抽象。
|
||||
|
||||
## 功能层次
|
||||
功能层次类似于业务系统中,每一层分工完成对入参的解析,加工处理,存储,提取,加工,输出。
|
||||
|
||||

|
||||
|
||||
附上一篇CSDN中对于数据分层说明的文章
|
||||

|
||||
|
||||
### 采集层(STG)
|
||||
这一层主要做的是数据采集与抽取,定义策略来把数据采集回来,好像一种计划任务,批量或是实时。
|
||||
是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。
|
||||
|
||||
[知乎上关于CDC的说明](https://zhuanlan.zhihu.com/p/76997736)
|
||||
|
||||
* 数据源类型(mysql, log, mongodb)
|
||||
* 源数据格式 (json, db result set)
|
||||
* 采集策略 (CDC)
|
||||
* 采集模式 (批量,实时)
|
||||
* 采集工具 (oplog, kettle, dataX)
|
||||
|
||||
[[明确采集层工作内容]]
|
||||
|
||||
### ODS层
|
||||
ODS层,操作数据层,也叫贴源层,本层直接存放从业务系统抽取过来的数据,这些数据从结构上和数据上与业务系统保持一致,降低了数据抽取的复杂性,本层数据大多是按照源头业务系统的分类方式而分类的。一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可。
|
||||
|
||||
某种意义上来说,这一层仅仅是为了保证原始数据的完整性。源系统依照标准把数据上报,存到这个临时空间,
|
||||
|
||||
* 日志,JSON数据
|
||||
* 结构化数据
|
||||
|
||||
使用mongodb存储
|
||||
|
||||
### DW(Data Warehouse)层 - 数据仓库层
|
||||
|
||||
数据仓库层是我们在做数据仓库时要核心设计的一层,本层将从 ODS 层中获得的数据按照主题建立各种数据模型,每一个主题对应一个宏观的分析领域,数据仓库层排除对决策无用的数据,提供特定主题的简明视图。DW层又细分为 DWD(Data Warehouse Detail)层、DWM(Data Warehouse Middle)层和DWS(Data Warehouse Service)层。
|
||||
|
||||
即是说,这一层的数据,便是面向数据分析,大数据接口服务的核心数据。
|
||||
### DM层
|
||||
为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。
|
||||
### APP层
|
||||
为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。
|
||||
|
||||
|
||||
|
||||
|
||||
## 模块细化
|
||||
### 从源系统抽取数据
|
||||
#### 问题1 异构数据服务
|
||||
#### 问题2 实时抽取
|
||||
#### 问题3 批量抽取
|
||||
|
||||
|
||||
### 数据处理
|
||||
@@ -0,0 +1 @@
|
||||
[[核心数据域]]
|
||||
Reference in New Issue
Block a user