Files
obsidian_vault/settings/archived/work/2021/数据仓库/概念/数据中台建设.md
T
2025-12-27 11:44:50 +08:00

3.2 KiB
Raw Blame History

从某个角度来看,数据中台很帖近数据仓库

数据中台功能模块图

eSFks6

从上所可知,基于数据中台,要实现的是基于数据的应用体系:

  • 数据图表化
  • 基于数据,对业务进行分析
  • 基于数据,提供的服务

因此,我们要实现这一平台,需要做的,并不是业务本身,而是通过对业务的分析,找到便于分析的数据。 为了实现这一目标,区别于一众业务服务,对业务进行建模,数据中台,要基于业务的分析,对数据进一步抽象。

功能层次

功能层次类似于业务系统中,每一层分工完成对入参的解析,加工处理,存储,提取,加工,输出。

jpQadZ

附上一篇CSDN中对于数据分层说明的文章 CSDN 数据仓库—stg层_数据仓库和数据分层

采集层(STG

这一层主要做的是数据采集与抽取,定义策略来把数据采集回来,好像一种计划任务,批量或是实时。 是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。

知乎上关于CDC的说明

  • 数据源类型(mysql, log, mongodb
  • 源数据格式 (json, db result set)
  • 采集策略 (CDC)
  • 采集模式 (批量,实时)
  • 采集工具 (oplog, kettle, dataX)

明确采集层工作内容

ODS层

ODS层,操作数据层,也叫贴源层,本层直接存放从业务系统抽取过来的数据,这些数据从结构上和数据上与业务系统保持一致,降低了数据抽取的复杂性,本层数据大多是按照源头业务系统的分类方式而分类的。一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可。

某种意义上来说,这一层仅仅是为了保证原始数据的完整性。源系统依照标准把数据上报,存到这个临时空间,

  • 日志,JSON数据
  • 结构化数据

使用mongodb存储

DW(Data Warehouse)层 - 数据仓库层

数据仓库层是我们在做数据仓库时要核心设计的一层,本层将从 ODS 层中获得的数据按照主题建立各种数据模型,每一个主题对应一个宏观的分析领域,数据仓库层排除对决策无用的数据,提供特定主题的简明视图。DW层又细分为 DWD(Data Warehouse Detail)层、DWM(Data Warehouse Middle)层和DWS(Data Warehouse Service)层。

即是说,这一层的数据,便是面向数据分析,大数据接口服务的核心数据。

DM层

为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。

APP层

为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。

模块细化

从源系统抽取数据

问题1 异构数据服务

问题2 实时抽取

问题3 批量抽取

数据处理