01背景介绍
数据治理的第一步,也是数据中台的一个基础功能—即将来自各类业务数据源的数据,同步集成至中台ODS层。业务数据源多种多样,单单可能涉及到的主流关系型数据库就有近十种。功能更加全面的数据中台通常还具有对接非关系型数据库、消息队列、日志源、文件源等功能。
数据湖通常是OLAP型的数据库,虽然中台系统很少会采用多种数据仓库技术,但在技术选型时,可选项也有很多。数据集成可实现多种异构数据库间的数据同步,想要提升数据中台的易用高效性,自动表模型同步则显得至关重要。
02数据平台整体架构
整体来看数据平台共有3层:业务数据源、数据平台中的数据湖仓及数据应用。
数据源可包含:
关系型或非关系型数据库;
某个消息系统如MQTT、Kafka或RabbitMQ;
放置在文件服务器上的CSV、XML或JSON文件;
非结构化日志或是类似通过syslog这样的协议提供的数据;
HTTP接口,通常是RestfulAPI。
数据湖仓通过一系列数据处理,支撑数据应用。数据应用则包括数据BI分析工具、即席查询、开放API、数据门户等功能板块。
其中,数据湖通常不是通过一步处理即可得到所需数据,所以数据湖也存在分层。比较常见的分层类别:ODS、DWD、DWS和ADS层。有时也会将维度表的数据划分至DIM层,不同数据平台系统的分层会有所增减。
本期分享