大佬们请教下，现在我使用FlinkCDC从Mysql导入到Doris，1分钟10W数据这正常吗

大佬们请教下，现在我使用FlinkCDC从Mysql导入到Doris，1分钟10W数据这正常吗有啥参数调整可以提高导入效率吗？还是跟硬件配置正相关吗？5M带宽，这个参数貌似也没有提高效率。

展开

收起

雪哥哥 2022-11-14 21:06:12 1188 版权

8 条回答

写回答

取消提交回答

穿过生命散发芬芳

FlinkCDC是一个用于将MySQL的变更数据捕获并导入到Doris的工具。导入速度受多个因素影响，包括网络带宽、硬件配置、FlinkCDC的参数设置等。

1、网络带宽：5M带宽可能对数据导入速度有一定限制。如果带宽较低，可以考虑增加带宽或使用更高速的网络连接。

2、硬件配置：硬件配置对导入速度也有影响。确保服务器的性能足够强大，包括CPU、内存和存储等方面的配置。

3、FlinkCDC参数调整：可以尝试调整FlinkCDC的参数来提高导入效率。例如，可以增加并行度（parallelism）来增加并行处理的任务数，或者调整checkpoint的间隔时间来减少IO开销。具体的参数调整需要根据实际情况进行尝试和优化。

除了以上建议，还有一些其他的优化策略可以考虑：

1、数据过滤：如果只需要部分数据进行导入，可以在FlinkCDC中配置过滤条件，减少不必要的数据传输和处理。

2、数据分区：将数据分成多个分区，可以在多个任务之间并行进行导入，提高导入速度。

3、数据预处理：在导入之前，可以对数据进行一些预处理操作，例如数据清洗、格式转换等，以减少后续处理的复杂性和时间消耗。

总的来说，提高FlinkCDC导入速度需要综合考虑网络带宽、硬件配置和FlinkCDC参数调整等多个因素，并根据具体情况进行优化和调整。

2023-08-27 07:57:07

赞同展开评论
三掌柜666

十分耕耘，一定会有一分收获！
楼主你好，1分钟导入10W数据的效率相对较高，但具体是否正常还需结合具体的数据规模、网络带宽和硬件配置等因素进行评估。

如果需要提高导入效率，可以尝试以下方法：
1. 调整FlinkCDC的并发数或者批量大小，可以提高导入效率。
2. 尽可能使用较高的机器配置，例如CPU、内存和网络带宽等，可以提高导入效率。
3. 确定Doris的水位线，逐步调整FlinkCDC的并发数和批量大小，使其符合Doris的处理速率。
4. 确认Doris的表结构是否有合理的分布键、排序键和分区方式，这些因素也可能会影响导入的效率。
另外，网络带宽也是影响导入效率的因素之一，可以尝试使用更高带宽的网络连接进行导入，以提高效率。
2023-08-21 15:35:19

赞同展开评论
Star时光
导入数据的效率受多个因素影响，包括硬件配置、网络带宽、Flink CDC 配置以及目标数据库性能等。以下是一些可以尝试的参数调整和优化建议：
1. 硬件配置：确保 Flink 和目标数据库所在的机器具有足够的计算资源（CPU、内存等）。如果硬件配置较低，可能会限制数据导入的速度。
2. 网络带宽：确保网络带宽充足，尤其是对于大量数据的传输。您提到的 5M 带宽可能会成为瓶颈，可以考虑增加带宽或优化网络连接来提高导入速度。
3. Flink CDC 参数调整：根据实际情况，您可以尝试调整以下 Flink CDC 相关参数来提高导入效率：
  
  flink.flink-cdc.max-parallelism：增加并行度以使用更多任务并行处理数据。
  flink.taskmanager.network.memory.fraction：增加网络缓冲区内存比例，以便更好地适应数据传输需求。
  flink.taskmanager.network.memory.min 和 flink.taskmanager.network.memory.max：调整网络缓冲区内存的最小和最大值。
4. 目标数据库性能优化：确保目标数据库（如 Doris）具有足够的性能和吞吐量来处理数据导入。可以考虑调整目标数据库的配置，如增加并发连接数、调整批量写入参数等。
5. 数据分区和并行度：根据数据量和目标数据库的性能，合理设置 Flink CDC 的数据分区和并行度，以平衡负载和提高导入效率。
2023-08-16 19:54:34

赞同展开评论
周周的奇妙编程

某政企事业单位安全运维工程师，主要从事系统运维及网络安全工作，多次获得阿里云、华为云、腾讯云征文比赛一二等奖；CTF选手，白帽，全国交通行业网络安全大赛二等奖，全国数信杯数据安全大赛银奖，手握多张EDU、CNVD、CNNVD证书，欧盟网络安全名人堂提名，联合国网络安全名人堂提名

FlinkCDC从Mysql导入到Doris每分钟处理10W数据量是相对较高的速度，但是否正常取决于具体的业务需求和硬件配置。要提高导入效率，可以考虑以下几点：

硬件配置：确保Mysql和Doris节点的CPU、内存和磁盘性能足够强大，以支持高负载的数据传输和处理。

网络带宽：5M带宽可能成为瓶颈，可以尝试增加带宽以提高数据传输速度。

FlinkCDC参数调整：可以尝试调整FlinkCDC相关参数来优化导入效率。例如，可以调整并行度（parallelism）和批处理大小（batch size）等参数来提升吞吐量和并行处理能力。

数据源表结构调整：如果可能的话，合理设计Mysql中的表结构，如使用合适的索引、分区等，以提高查询速度和数据导出效率。

请留意，在具体问题中，可能还有其他因素影响导入效率，因此建议您结合实际情况进行综合考虑和测试。

2023-08-15 07:25:48

赞同 1 展开评论
算精通

北京阿里云ACE会长

1分钟导入10W条数据，从时间上来看是比较快的，但具体是否正常还需要考虑数据量、网络带宽、硬件配置等因素。下面是一些可能影响导入效率的因素和建议的调整方法：

数据量和数据大小：如果导入的数据量较大或单个数据行的大小较大，可能会对导入效率产生影响。你可以尝试分批次导入，将数据切分为较小的批次，并使用并行度来加速导入。

网络带宽和延迟：网络带宽和延迟会对数据导入速度产生影响。在你的情况下，5M带宽可能会成为瓶颈。如果可能的话，可以尝试增加带宽或优化网络连接以提高导入速度。此外，如果源数据库和目标数据库位于同一台物理机器上或同一局域网内，可以减少网络传输的开销。

硬件配置：硬件配置也会对导入效率产生影响。可以确保你的机器具有足够的计算资源和内存来处理数据导入任务。如果你的硬件配置较低，可能需要考虑升级硬件或增加机器数量来提高导入速度。

Flink 配置调优：你可以调整 Flink 的相关配置参数来提高导入效率。例如，可以调整任务的并行度，增加 Task Manager 的数量，调整内存分配等。这些调优需要根据具体情况进行实验和测试，找到最适合你的场景的配置。

数据库性能和索引：目标数据库的性能和索引设置也会对导入速度产生影响。确保目标数据库的性能良好，并根据实际情况设置适当的索引，以提高数据写入的效率。

2023-08-14 19:23:38

赞同展开评论
小Lee
1分钟导入10W数据的速度，一般来说是比较正常的。不过具体的速度还受到多种因素的影响，例如源数据库和目标数据库的性能、网络带宽、数据量大小、操作系统等等sink.properties.fuzzy_parse 是 Flink CDC 的一个配置参数，用于控制是否开启模糊解析（fuzzy parse）功能。在默认情况下，Flink CDC 会使用精确解析（exact parse）方式解析 MySQL binlog 中的数据。这种方式可以保证解析的准确性，但是会对性能产生一定的影响，尤其是在处理大量 binlog 数据时。为了提高性能，Flink CDC 提供了模糊解析功能。开启模糊解析后，Flink CDC 会在解析 binlog 数据时忽略某些不必要的信息，从而提高解析速度。具体来说，模糊解析会忽略某些列的值，以及某些 DML 语句中的 WHERE 条件。

如果您想提高导入效率，可以考虑以下几个方面：
1. 调整 Flink CDC 的配置参数。Flink CDC 提供了很多配置参数，例如并行度、内存大小、网络缓冲区大小等等，可以根据实际情况进行调整，以提高导入效率。
2. 调整目标数据库的配置参数。例如，可以增加目标数据库的内存大小、磁盘带宽等等，以提高导入效率。
3. 使用更好的硬件设备。例如，可以使用更快的 CPU、更大的内存、更快的磁盘等等，以提高导入效率。
4. 优化源数据库和目标数据库的表结构。例如，可以使用更简单的表结构、减少索引数量等等，以提高导入效率。
5. 增加网络带宽。如果网络带宽不足，可以考虑增加带宽，以提高导入效率。
需要注意的是，对于大规模的数据导入任务，除了以上几个方面的优化，还需要进行全面的系统架构设计和性能调优。
2023-08-14 17:09:13

赞同展开评论
vohelon
关于Flink CDC从MySQL导入到Doris的性能问题，这里有一些建议和可能的优化方法：
1. 并行度：尝试增加并行度以提高性能。在Flink的作业配置中，你可以调整并行度的值。但是请注意，过高的并行度可能会导致资源竞争和性能下降，因此需要根据实际情况进行调整。
2. 数据过滤：如果你的应用中有复杂的数据过滤操作，这可能会导致性能下降。你可以考虑将数据过滤操作移到Flink作业的前面，以便在进入Doris之前对数据进行预处理。
3. 数据编码：对于大数据量的导入，可以考虑使用压缩编码来减少网络传输的开销。例如，你可以使用Gzip或Snappy等压缩算法对数据进行编码。
4. 硬件配置：硬件配置确实会影响到Flink CDC的性能。例如，更大的内存容量可以帮助缓冲更多的数据，从而提高性能。此外，更快的网络连接也可以缩短数据传输的时间。
5. 优化Doris配置：你可以尝试调整Doris的配置参数，例如设置合适的缓冲区大小、并发度等。具体的参数设置需要根据你的实际需求和硬件条件进行调整。
2023-08-14 16:06:14

赞同展开评论
叶秋学长

全栈JAVA领域创作者

1分钟10W数据的导入速度在一定程度上是正常的，但具体情况还需要考虑以下因素：

数据源的性能：如果源数据库的性能较差，那么导入数据的速度可能会受到影响。您可以尝试优化源数据库的性能，例如增加硬件资源、优化SQL语句等。
Flink CDC的并行度：Flink CDC的并行度越高，可以处理的binlog事件就越多，从而提高导入数据的速度。您可以尝试调整Flink CDC的并行度，例如使用setParallelism方法来设置并行度。
Doris的性能：如果Doris的性能较差，那么导入数据的速度可能会受到影响。您可以尝试优化Doris的性能，例如增加硬件资源、优化查询语句等。
网络带宽：如果网络带宽较低，那么导入数据的速度可能会受到影响。您可以尝试增加网络带宽，例如使用更高带宽的网络设备。
综上所述，如果您想要提高导入数据的速度，可以尝试优化源数据库和Doris的性能、调整Flink CDC的并行度、增加网络带宽等。需要注意的是，不同的情况可能需要不同的参数调整，因此需要根据具体情况进行调整和优化。

2023-08-14 12:59:07

赞同展开评论