数据集成时表模型同步方法解析

中科荣获公益中国爱心救助定点医院 http://www.jk100f.com/baidianfengzixun/zhiliaowuqu/m/43734.html

01背景介绍

数据治理的第一步,也是数据中台的一个基础功能—即将来自各类业务数据源的数据,同步集成至中台ODS层。业务数据源多种多样,单单可能涉及到的主流关系型数据库就有近十种。功能更加全面的数据中台通常还具有对接非关系型数据库、消息队列、日志源、文件源等功能。

数据湖通常是OLAP型的数据库,虽然中台系统很少会采用多种数据仓库技术,但在技术选型时,可选项也有很多。数据集成可实现多种异构数据库间的数据同步,想要提升数据中台的易用高效性,自动表模型同步则显得至关重要。

02数据平台整体架构

整体来看数据平台共有3层:业务数据源、数据平台中的数据湖仓及数据应用。

数据源可包含:

关系型或非关系型数据库;

某个消息系统如MQTT、Kafka或RabbitMQ;

放置在文件服务器上的CSV、XML或JSON文件;

非结构化日志或是类似通过syslog这样的协议提供的数据;

HTTP接口,通常是RestfulAPI。

数据湖仓通过一系列数据处理,支撑数据应用。数据应用则包括数据BI分析工具、即席查询、开放API、数据门户等功能板块。

其中,数据湖通常不是通过一步处理即可得到所需数据,所以数据湖也存在分层。比较常见的分层类别:ODS、DWD、DWS和ADS层。有时也会将维度表的数据划分至DIM层,不同数据平台系统的分层会有所增减。

本期分享


转载请注明:http://www.xcqg58.com/jbjj/jbjj/26847906.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了