探究 | kafka-connector 同步 Elasticsearch速度慢根因分析?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 1、kafka同步Elasticsearch的方式之前博文中也有介绍:方式一:logstash_input_kafka方式二:kafka_connector方式三:spark stream方式四:java程序读写自己实现2、kafka-connector同步kafka到ES场景一:kafka实时数据流直接通过kafka-connector同步到ES。

1、kafka同步Elasticsearch的方式

之前博文中也有介绍:

  • 方式一:logstash_input_kafka
  • 方式二:kafka_connector
  • 方式三:spark stream
  • 方式四:java程序读写自己实现

2、kafka-connector同步kafka到ES

image.png

场景一:kafka实时数据流直接通过kafka-connector同步到ES。
场景二:kafka实时数据流需要中间数据处理后再同步到ES。

3、同步慢问题分析?

3.1 针对场景一:

可能的原因:kafka-connector写入ES速度慢?
可能的应对策略核心:提升ES的写入速度。
分解策略:

  • 1)ES副本数设置为0
    待写入完毕后再改成实际副本值。
  • 2)调整 bulk 线程池和队列
    结合物理机的线程大小配置与之匹配的线程池和队列大小。
  • 3)增加refresh间隔
    默认的refresh的间隔是1s,用index.refresh.interval可以设置。如果设置为默认值1s,则会强迫每秒将内存中的数据写入磁盘中,创建一个新的segment file。这个1s间隔是导致:写入数据后,需要1s才能看到的原因。

如果该值调大,比如60s,新写入的数据60s才能看到,这样就会获得了较大的写入吞吐量。
因为:60s的间隔都是写入内存的,每隔60s才会创建一个segment file。

  • 4) 调整translog flush 间隔
    translog的写入可以设置,默认是request,每次请求都会写入磁盘(fsync),这样就保证所有数据不会丢,但写入性能会受影响。

如果改成async,则按照配置触发trangslog写入磁盘,注意这里说的只是trangslog本身的写盘。
translog什么时候清空?默认是512mb,或30分钟。这个动作就是flush,同时伴随着segment提交(写入磁盘)。flush之后,这段translog的使命就完成了,因为segment已经写入磁盘,就算故障,也可以从segment文件恢复。

index.translog.durability: async 
index.translog.sync_interval: 120s
index.translog.flush_threshold_size: 1024mb 
index.translog.flush_threshold_period: 120m

另外,有一个/_flush/sync命令,在做数据节点维护时很有用。其逻辑就是flush translog并且将sync_id同步到各个分片。可以实现快速恢复。
更多策略参考:

  1. https://www.easyice.cn/archives/207
  2. https://elasticsearch.cn/question/3847

3.2 针对场景二:

结合实际场景,从后往前分析?
思考问题:

(1)kafka-connector之前的实时速度怎么样?

可以在kafka-connector同步之前打印日志,看获取的实时数据实现和当前时刻进行比对。
如果二者差值较大, 则认为数据没有实时。
可能的原因需要进一步分析。

可能问题1:接入的时候中间可能有异常。
进一步排查kafka 接入的时候的问题。

可能问题2:中间处理慢了。
1)排查下,中间有没有调用第三方应用、服务。比如:读写数据库、调用第三方分词等服务。
2)考虑增大并行,提升调用速度。


(2)kafka-connector写入到ES的时刻是不是慢了?
如果是,需要统计一段时间,比如1小时、5小时,统计出每秒的写入速度?
这里的优化:

1)增大并行,kafka-connector写入ES考虑并行。
2)参考场景一中提及的ES方面的优化。

4、小结

问题排查的周期可能会很长,但是要有定力。
从后往前、找到问题的根源,“对症下药”放得持久疗效!


image.png

作者:铭毅天下 转载请标明出处

相关文章
|
12天前
|
消息中间件 存储 Kafka
实时计算 Flink版产品使用问题之通过flink同步kafka数据进到doris,decimal数值类型的在kafka是正常显示数值,但是同步到doris表之后数据就变成了整数,该如何处理
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
19天前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如果设置了从Kafka数据源同步到MaxCompute(mc)的任务,任务一直在执行中,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 10
|
17天前
|
JSON DataWorks 关系型数据库
DataWorks操作报错合集之同步Elasticsearch数据报错:Cat response did not contain a JSON Array,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
4天前
|
消息中间件 存储 Java
后端开发Spring框架之消息介绍 同步异步 JMS AMQP MQTT Kafka介绍
后端开发Spring框架之消息介绍 同步异步 JMS AMQP MQTT Kafka介绍
6 0
|
12天前
|
消息中间件 存储 SQL
实时计算 Flink版产品使用问题之kafka2hive同步数据时,如何回溯历史数据
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
Kubernetes 关系型数据库 MySQL
实时计算 Flink版产品使用合集之在Kubernetes(k8s)中同步MySQL变更到Elasticsearch该怎么操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
SQL 监控 API
实时计算 Flink版产品使用合集之可以用来同步数据到 Elasticsearch(ES)吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
实时计算 Flink版产品使用合集之可以用来同步数据到 Elasticsearch(ES)吗
|
1月前
|
自然语言处理 测试技术 网络安全
ElasticSearch7最新实战文档-附带logstash同步方案
ElasticSearch7最新实战文档-附带logstash同步方案
25 0
|
1月前
|
canal NoSQL 关系型数据库
实时计算 Flink版产品使用合集之如何在ElasticSearch中查看同步的数据
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
消息中间件 关系型数据库 Kafka
实时计算 Flink版产品使用合集之使用DTS从RDSMySQL数据库同步数据到云Kafka,增量同步数据延迟时间超过1秒。如何诊断问题并降低延迟
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

热门文章

最新文章