文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC中mysql的blob字段在mysql端未压缩的情况下可以直接使用cast？

Flink CDC中mysql的blob字段在mysql端未压缩的情况下可以直接使用cast(column as string )转出来，压缩的话就不行，什么原因？

展开

收起

十一0204 2023-08-16 08:00:49 277 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

清风拂袖

Flink CDC 可以读取 MySQL 中的 blob 字段，但如果 blob 字段很大，那么 Flink CDC 可能会有性能问题。这是因为 Flink CDC 会将 blob 字段转换成 byte 数组，然后再将 byte 数组转换成字符串。这个过程会比较耗时。

如果 mysql 端未压缩，那么你可以尝试使用 binaryAsString() 方法来将 blob 字段转换成字符串。这个方法可以避免 Flink CDC 将 blob 字段转换成 byte 数组，从而提高性能。

以下是一个使用 binaryAsString() 方法读取 MySQL 中 blob 字段的例子：

val source = new MysqlSource(...)
val transformation = new RichMapFunction[MysqlRow, MysqlRow] {
override def map(row: MysqlRow): MysqlRow = {
val blobColumn = row.getBlob("blobColumn")
row.setString("blobColumn", blobColumn.binaryAsString())
row
}
}
val sink = new MysqlSink(...)
val pipeline = new Pipeline()
pipeline.addSource(source)
pipeline.addTransform(transformation)
pipeline.addSink(sink)
pipeline.run()
这个例子中，我们首先使用 MysqlSource 读取 MySQL 中的数据，然后使用 RichMapFunction 将 blob 字段转换成字符串。最后，我们使用 MysqlSink 将数据写入 MySQL。

如果你的 blob 字段很大，那么你可以尝试调整 MysqlSource 的 maxBatchSize 和 MysqlSink 的 bufferTimeoutMillis 这两个参数。这两个参数可以控制 Flink CDC 读取和写入数据的速率。

2023-09-21 10:52:39

赞同展开评论

问答分类：

关系型数据库 MySQL 流计算云数据库 RDS MySQL 版实时计算 Flink版

问答标签：

实时计算 Flink版CDC 云数据库 RDS MySQL 版字段实时计算 Flink版mysql 实时计算 Flink版cdc mysql cdc云数据库 RDS MySQL 版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

使用Flink CDC 同步MySQl。配置了多张表，有一张A表删除了字段，然后停止同步后怎么做？

338

1

0

postgresql 只有部分字段权限Flink CDC 这个怎么同步呀？

197

0

0

有个上千万的表，里面有 id,parent_id两个字段Flink sql能写出这种效果吗？

229

0

0

在Flink CDC中，cdc读取oracle数据库的时候，clob和blob类型支持吗?

289

1

0

对于Flink CDC，schema中fields的name是指字段名字吗？

196

1

0

RDS Mysql是否支持数据库压缩

247

1

0

Flink在进行mysql cdc连接源表时是全部字段都要同步吗

182

1

0

Flink为什么我kafka 写到mysql的数据字段对应关系变反了呢？

224

1

0

oracle中的BLOB类型 flink传输不过来吗？

388

3

0

现在使用Flink CDC1.17.2+cdc2.4，我想把这个字段加进来，该怎么操作呢？

144

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

基于javaweb的图书管理系统的设计和实现

广告竞价为什么要拼毫秒级速度？揭秘 RTB 实时广告系统背后的数据流水线设计

三个月的脏数据没人发现：一套MySQL数据校验方案分享

数据治理平台选型架构与“理采存管用”技术路径深度拆解

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

Flink 与 Hologres 搭建实时数仓

通过 RocketMQ 实现分布式事务

云上高可用架构

快速集成分布式任务调度

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink CDC 能适配达梦不？

Flink cdc sqlserver 希望不同步某些数据行

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC底层监听是不是用到flink定时任务还是啥？

展开全部

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink Checkpoint 问题排查实用指南

如何在 PyFlink 1.10 中自定义 Python UDF？

基于Flink的实时日志分析系统实践

深入了解 Flink 网络栈（二）：监控、指标和处理背压

展开全部

还有其他疑问?