游客kvzazfncej2yu_个人页

个人头像照片 游客kvzazfncej2yu
个人头像照片
0
1040
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2022年01月

正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2022-01-20

    Flink CDC + JDBC Connector 同步方案中功能测试有哪些?

    如图所示: 85.jpg

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    《Flink CDC:新一代数据集成框架》这本书可以在哪里下载?

    下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    Flink CDC中的CDC是什么意思?

    CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都 可以称之为 CDC 。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    目前通常描述的 CDC 技术是指什么?

    目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中 数据变更的技术。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    CDC 技术的应用场景有哪些?

    CDC 技术的应用场景非常广泛:

    1.数据迁移:常用于数据库备份、容灾等;

    2.数据分发:将一个数据源分发给多个下游,常用于业务解耦、微服务;

    3.数据采集:将分散异构的数据源集成到数据仓库中,消除数据孤岛,便于后续的分析。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    目前业界主流的 CDC 实现机制可以分为哪几种?

    目前业界主流的 CDC 实现机制可以分为两种:

    1.基于查询的 CDC;

    2.基于日志的 CDC。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    基于查询的 CDC技术包括什么内容?

    基于查询的 CDC:

    1.离线调度查询作业,批处理。依赖表中的更新时间字段,每次执行查询去获取表中最新的数据;

    2.无法捕获删除事件,从而无法保证数据一致性;

    3.无法保障实时性,基于离线调度存在天然的延迟。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    基于日志的 CDC技术包括什么内容?

    基于日志的 CDC:

    1.实时消费日志,流处理。例如 MySQL 的 binlog 日志完整记录了数据库中的变更,可以把 binlog 文件当作流的数据源;

    2.保障数据一致性,因为 binlog 文件包含了所有历史变更明细;

    3.保障实时性,因为类似 binlog 的日志文件是可以流式消费的,提供的是实时数据。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    对比常见的开源 CDC 方案可以发现哪些内容?

    发现以下内容:

    1) DataX 不支持增量同步,Canal 不支持全量同步。虽然两者都是非常流行的数据同步工具,但在场景支持上仍不完善。

    2) 在全量+增量一体化同步方面,只有 Flink CDC、Debezium、Oracle Goldengate 支持较好。

    3) 在架构方面,Apache Flink 是一个非常优秀的分布式流处理框架,因此 Flink CDC 作为Apache Flink 的一个组件具有非常灵活的水平扩展能力。而 DataX 和 Canal 是个单机架构,在大数据场景下容易面临性能瓶颈的问题。

    4) 在数据加工的能力上,CDC 工具是否能够方便地对数据做一些清洗、过滤、聚合,甚至关联打宽?Flink CDC 依托强大的 Flink SQL 流式计算能力,可以非常方便地对数据进行加工。而Debezium 等则需要通过复杂的 Java 代码才能完成,使用门槛比较高。

    5) 另外,在生态方面,这里指的是上下游存储的支持。Flink CDC 上下游非常丰富,支持对接MySQL、PostgreSQL 等数据源,还支持写入到 TiDB、HBase、Kafka、Hudi 等各种存储系统中,也支持灵活的自定义 connector。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    Flink 有哪两个基础概念?

    Flink 有两个基础概念:Dynamic Table 和 Changelog Stream。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    Flink 中的Dynamic Table基础概念是什么意思?

    Dynamic Table 就是 Flink SQL 定义的动态表,动态表和流的概念是对等的。参照上图,流可 以转换成动态表,动态表也可以转换成流。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    Flink 中的Changelog Stream基础概念是什么意思?

    在 Flink SQL 中,数据在从一个算子流向另外一个算子时都是以 Changelog Stream 的形式, 任意时刻的 Changelog Stream 可以翻译为一个表,也可以翻译为一个流。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    联想 MySQL 中的表和 binlog 日志会发现MySQL 数据库有什么?

    联想下 MySQL 中的表和 binlog 日志,就会发现:MySQL 数据库的一张表所有的变更都记录在 binlog 日志中,如果一直对表进行更新,binlog 日志流也一直会追加,数据库中的表就相当于 binlog 日志流在某个时刻点物化的结果;日志流就是将表的变更数据持续捕获的结果。这说明 Flink SQL 的 Dynamic Table 是可以非常自然地表示一张不断变化的 MySQL 数据库表。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    RowData 中的元数据 RowKind包括哪些类型?

    每条 RowData 都有一个元数据 RowKind,包括 4 种类型, 分别是插入 (INSERT)、更新前镜 像 (UPDATE_BEFORE)、更新后镜像 (UPDATE_AFTER)、删除 (DELETE),这四种类型和数据库 里面的 binlog 概念保持一致。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    Debezium 数据结构中的op 字段包括哪些内容?

    Debezium 的数据结构,也有一个类似的元数据 op 字段, op 字段的取值也有四种,分别 是 c、u、d、r,各自对应 create、update、delete、read。对于代表更新操作的 u,其数据部 分同时包含了前镜像 (before) 和后镜像 (after)。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    传统 CDC 的 ETL 分析链路是怎么样的?

    如图所示: 15.jpg

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    传统的基于 CDC 的 ETL 分析中用的是什么数据采集工具?

    传统的基于 CDC 的 ETL 分析中,数据采集工具是必须的,国外用户常用 Debezium,国内用户常 用阿里开源的 Canal,采集工具负责采集数据库的增量数据,一些采集工具也支持全量数据同步。 采集到的数据一般输出到消息中间件如 Kafka,然后 Flink 计算引擎再去消费数据并写入到目的端, 目的端可以是各种数据库、数据仓库、数据湖和消息队列。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    Flink CDC 的 ETL 分析流程是怎么提出来的?

    Flink 提供了 changelog-json format,可以将 changelog 数据写入离线数仓(如 Hive); 对于消息队列(如 Kafka),Flink 支持将 changelog 通过 upsert-kafka connector 直接写入 Kafka 的 compacted topic。在思考是否可以使用 Flink CDC 去替换上图中虚线框内的采集组件和消息队列,从而简化 分析链路,降低维护成本。同时更少的组件也意味着数据时效性能够进一步提高。答案是可以的, 于是就有了基于 Flink CDC 的 ETL 分析流程。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    使用了 Flink CDC后有哪些优势?

    在使用了 Flink CDC 之后,除了组件更少,维护更方便外,另一个优势是通过 Flink SQL 极大地 降低了用户使用门槛。

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
  • 回答了问题 2022-01-20

    基于 Flink CDC 的 ETL 分析图是什么样的?

    如图所示,这个例子是通过 Flink CDC 去同步数据库数据并写入到 TiDB,用户直接使用 Flink SQL 创建了产品 和订单的 MySQL-CDC 表,然后对数据流进行 JOIN 加工,加工后直接写入到下游数据库。通过一 个 Flink SQL 作业就完成了 CDC 的数据分析、加工和同步。 19.jpg

    资料来源:《Flink CDC:新一代数据集成框架》,下载链接:https://developer.aliyun.com/topic/download?id=8256。

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息