从某个角度来看,数据中台很帖近数据仓库 ## 数据中台功能模块图 ![eSFks6](http://thoughts.taotechip.com/uPic/eSFks6.jpg) 从上所可知,基于数据中台,要实现的是基于数据的应用体系: * 数据图表化 * 基于数据,对业务进行分析 * 基于数据,提供的服务 因此,我们要实现这一平台,需要做的,并不是业务本身,而是通过对业务的分析,找到便于分析的数据。 为了实现这一目标,区别于一众业务服务,对业务进行建模,数据中台,要基于业务的分析,对数据进一步抽象。 ## 功能层次 功能层次类似于业务系统中,每一层分工完成对入参的解析,加工处理,存储,提取,加工,输出。 ![jpQadZ](http://thoughts.taotechip.com/uPic/jpQadZ.png) 附上一篇CSDN中对于数据分层说明的文章 ![CSDN 数据仓库—stg层_数据仓库和数据分层](https://blog.csdn.net/weixin_39692253/article/details/111497058) ### 采集层(STG) 这一层主要做的是数据采集与抽取,定义策略来把数据采集回来,好像一种计划任务,批量或是实时。 是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。 [知乎上关于CDC的说明](https://zhuanlan.zhihu.com/p/76997736) * 数据源类型(mysql, log, mongodb) * 源数据格式 (json, db result set) * 采集策略 (CDC) * 采集模式 (批量,实时) * 采集工具 (oplog, kettle, dataX) [[明确采集层工作内容]] ### ODS层 ODS层,操作数据层,也叫贴源层,本层直接存放从业务系统抽取过来的数据,这些数据从结构上和数据上与业务系统保持一致,降低了数据抽取的复杂性,本层数据大多是按照源头业务系统的分类方式而分类的。一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可。 某种意义上来说,这一层仅仅是为了保证原始数据的完整性。源系统依照标准把数据上报,存到这个临时空间, * 日志,JSON数据 * 结构化数据 使用mongodb存储 ### DW(Data Warehouse)层 - 数据仓库层 数据仓库层是我们在做数据仓库时要核心设计的一层,本层将从 ODS 层中获得的数据按照主题建立各种数据模型,每一个主题对应一个宏观的分析领域,数据仓库层排除对决策无用的数据,提供特定主题的简明视图。DW层又细分为 DWD(Data Warehouse Detail)层、DWM(Data Warehouse Middle)层和DWS(Data Warehouse Service)层。 即是说,这一层的数据,便是面向数据分析,大数据接口服务的核心数据。 ### DM层 为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。 ### APP层 为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。 ## 模块细化 ### 从源系统抽取数据 #### 问题1 异构数据服务 #### 问题2 实时抽取 #### 问题3 批量抽取 ### 数据处理