基于Apache doris怎么构建数据中台(四)-数据接入系统

2022-05-13 541

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

阿里云百炼推荐规格 ADB PostgreSQL，4核16GB 100GB 1个月

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

简介： 在开发数据模型时，我们必须有一个统一的平台，能够像流水线一样，把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。

基于Apache doris怎么构建数据中台(四)-数据接入系统

上一次我们讲解了数据资产，元数据管理，血缘关系等，这次我们开始将数据接入，怎么实现快速的数据接入

在开发数据模型时，我们必须有一个统一的平台，能够像流水线一样，把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。

主要是为了实现业务数据的快速接入，零代码实现，数据分析人员只需要通过UI进行简单的配置、提交任务即可完成数据的接入，并能实现对数据接入任务的管理及监控。

Mysql数据源数据接入

主要是为了完成针对Mysql数据的业务系统数据接入零代码实现，不需要开发人员接入，提供给数据分析人员使用，目的是为了业务数据快速接入，无需编码

数据接入系统我们通过自研的规则引擎，和接入任务整合，同时自动化完成了数据接入的ETL工作，规则可以通过页面进行可视化配置，这块我会在后面的质量模块介绍

通过UI界面添加数据接入任务的方式

Mysql数据的采集是通过Canal 采集binlog完成

在界面上第一步是配置canal实例（canal实例的管理是通过cannal admin），除了kafka topic名称需要手工输入，其他信息尽可能不要让使用人员手工数据

第二步配置Flink Job任务信息，需要的kafka topic名称来源于上一步，业务表和数仓表的对应关系通过元数据选择方式完成，避免手工输入

第三步：提交任务，这时候完成canal实例创建，运行，Flink job任务提交运行

并在列表上监控canal实例及Flink job运行状态的监控

DataX 数据接入

要实现的内容基本和Mysql binlog的同步一样

只不过是Datax是为了实现非mysql数据的数据接入零代码完成

数据API方式数据接入

传统数据API方式的数据接入都需要进行代码开发对接才能完成，初步设想这块通过通用的代码生成器的方式实现针对常用API方式（WebService,RestFul API）零代码接入

图形化数据接入

我们目前支持Kafka，Mysql，datax数据零代码接入

Mysql ：通过Canal采集业务数据库的binlog日志，将数据推送到指定的Kafka队列

其他DB：通过datax（全量和增量）定时的将数据，推送到指定的Kafka队列，这里我们对Datax做了改造，让Datax的数据格式和Canal格式一致，

数据接口：后端数据接收服务队数据进行转换（可配置）以后，形成和Canal一致的数据格式，推送到指定的Kafka队列

后端针对业务db，我们会通过元数据采集系统采集业务系统库表及字段的元数据信息，进入到元数据管理系

针对没有数据库表的，通过接口直接推送到Kafka的数据，我们在元数据管理里统一提供虚拟库表，通过这个完成数据的统一接入

在数据接入的时候，我们整合了我们自研的规则引擎，可以实现数据接入和ETL规则自动绑定，通过阿波罗配置系统进行统一下推到Flink Job里执行，

对于异常数据（不符合规则的），自动推送到指定的Kafka队列，后端有对应的服务进行处理，我们这里是通过Flink实现了一个轻量级的ETL，及数据入Doris的自动化工具

效果如下：

第一步选择要接入的数据表

第二步选择数据仓相关的信息，这一步会进行表字段映射检查及配置，目前要首先在数仓中建立相应的表，后续会自动化建表

第三步就是输入Flink Job名称进行提交了，整个就完成了

数据开发控制台

提供一个数据类似于HUE的SQL数据开发控制台，数据开发人员可以通过这个控制台进行sql的开发调试

生产环境这里delete，drop等操作要进行审批确认，才能进行，避免误操作，删除数据

可以将调试好的sql，添加到定时任务调度系统中，这里我们将海豚调度集成到我们数据中台中

零代码入仓的问题解答

很多朋友问到，我们这种方式会不会数据丢失，会不会数据重复，结合我们自己的场景，给我我们的解决方案

数据入到Doris数据仓库对应的表中，这里我们采用的是Flink实时消费KafKa的数据，然后通过Doris的 Stream Load完成

Flink消费Kafka数据我们支持两种方式：

指定Kafka Topic的Offset进行消费：kafka.offset

指定时间戳的方式：kafka.timestamp

数据丢失的问题

针对Flink Job失败，重启也是通过这两个参数，

如果你记录了失败的时间点的Kafka Offset，可以通过配置文件配置这个参数来重启Flink Job就行。这样不会造成数据丢失

如果没有记录这个offset，可通过指定

consumer.setStartFromTimestamp(timestamp);这个时间就是在配置文件中配置的时间戳，这样无论是通过offset还是从指定的时间开始消费Kafka数据，都不会造成数据丢失

数据重复问题

因为我们这个是在数据接入层使用的，数据是进入到数据仓ODS层，在这一层我们采用的是Doris Unique Key模型，就算数据重复入库，会覆盖原先的数据，不会存在数据重复问

下一讲开始讲解数据质量管理

基于Apache doris怎么构建数据中台(四)-数据接入系统

基于Apache doris怎么构建数据中台(四)-数据接入系统

Mysql数据源数据接入

DataX 数据接入

数据API方式数据接入

数据开发控制台

零代码入仓的问题解答

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于Apache doris怎么构建数据中台(四)-数据接入系统

基于Apache doris怎么构建数据中台(四)-数据接入系统

Mysql数据源数据接入

DataX 数据接入

数据API方式数据接入

数据开发控制台

零代码入仓的问题解答

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像