备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问一下。怎么从kafka获取一批数据，然后批量写入es或数据库呢？

请问一下。怎么从kafka获取一批数据，然后批量写入es或数据库呢。现在kafka消费都是一条一条的。怎么转化成批量呢。？

展开

收起

圆葱猪肉包 2023-03-27 13:40:46 473 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

我是三好学生

定义批插入sink或者使用flink 提供的sink函数，我记得flink好几个数据库sink函数都提供批量插入。此回答整理自钉群“【③群】Apache Flink China社区”

2023-03-28 10:53:57

赞同展开评论
筝樾

Flink实时消费kafka数据，数据经过处理，富化、清洗等操作，写入ES

2023-03-27 15:22:57

赞同展开评论

HaydenGuo

坚持这件事孤独又漫长。

可以使用Flink的DataStream API中提供的 window 和 batch API，来进行批量处理。以下是基于 Flink 的批处理实例代码：

val env = ExecutionEnvironment.getExecutionEnvironment

val props = new Properties()
props.setProperty("bootstrap.servers", "localhost:9092")
props.setProperty("group.id", "test")

val consumer = new FlinkKafkaConsumer[String]("topic", new SimpleStringSchema(), props)
consumer.setStartFromEarliest()

val stream: DataSet[String] = env
  .addSource(consumer)

val batchSize = 1000L // 批处理大小
stream
  .map(parseRecord) // 对每个数据进行解析
  .groupingKey(data => data.id) // 根据 ID 进行分组
  .reduceGroup { (values, out: Collector[Seq[Data]]) =>
    val batch = scala.collection.mutable.ArrayBuffer[Data]()
    values.foreach { data =>
      batch += data
      if (batch.size >= batchSize) {
        out.collect(batch)
        batch.clear()
      }
    }
    if (batch.nonEmpty) {
      out.collect(batch)
      batch.clear()
    }
  }
  .flatMap { data =>
    writeToEs(data) // 将处理后的数据写入 ES 中
  }

env.execute("Batch processing from Kafka to ES example")

在此示例中，我们首先使用FlinkKafkaConsumer从 Kafka 中消费数据，然后定义一个处理函数，在函数内我们对数据进行解析，并根据 ID 进行分组。然后我们将同一个数据 ID 的数据打包成一个批次，批次大小是向上取整为 batchSize 的最小值。最后我们将批次数据批量写入到 ES 中。

2023-03-27 14:48:36

赞同展开评论

问答分类：

消息中间件 Kafka 数据库云消息队列 Kafka 版

问答标签：

数据库数据云消息队列 Kafka 版数据数据库kafka 云消息队列 Kafka 版数据库 kafka数据库

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink cdc实时同步oracle数据库到kafka报错

280

2

0

大数据计算MaxCompute在odps上有一个kafka同步到es的离线任务任务是这么配置的？

79

0

0

DataWorks在odps上有一个kafka同步到es的离线任务任务是这么配置的？

87

1

0

在OceanBase数据库中，可以接db2到kafka吗？

79

2

0

消息队列Kafka版支持由TDengine数据库生产消息到Kafka吗

99

1

0

阿里云数据库通过实时数据消费将Kafka数据写入AnalyticDB PostgreSQL-附录

90

1

0

通过kafka connect将oceanbase数据库数据同步至kafka

94

0

0

阿里云数据库通过实时数据消费将Kafka数据写入AnalyticDB PostgreSQL-附录有吗

90

1

0

有大佬知道这是怎么回事么 flink读不到kafka数据

1222

1

0

请问下当flink集群重启之后 kafka消息还是重复有什么办法解决吗 kafka sink 已设

1209

4

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Chef：开源 AI 全栈应用构建工具实践

MySQL 集群部署实战指南：高可用与可扩展的数据库架构

数据库应用层数据访问监控解决方案：下一代数据库审计技术解析

系统别一宕就“全死”：谈谈高可用架构到底怎么设计

阿里云服务器ECS通用算力型u2i实例介绍以及2核4G、4核8G配置优惠价格

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink-CDC 文档网站地址是什么？

debezium 可以正常读取做到数据同步，但是无法持久化表结构元数据

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

在Flink中Job Manager CPU设置为1，Memory设置为8G，它是算1CU还是什么？

Flink CDC里用jdbc往达梦dm8推数据，老是显示字符被截断是咋回事？有人碰到过嘛？

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

请问如何用flink sql客户端用yarn application模式提交任务呢？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

展开全部

还有其他疑问?