flink 向doris 数据库写入数据时出现背压如何排查?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
  1. 确定背压是否存在及程度
  • 通过 Flink Web UI 观察:Flink 提供了 Web UI 来监控任务状态。在 Web UI 中,可以查看各个算子(Operator)的反压状态(Back Pressure Status)。绿色表示没有背压,黄色表示可能有轻微背压,红色表示严重背压。确定哪些算子出现背压,重点关注向 Doris 写入数据相关的算子,如Sink算子。
  • 查看性能指标:检查输入输出速率(Input/Output Rate)、缓冲区使用情况(Buffer Usage)等指标。如果输入速率持续大于输出速率,并且缓冲区使用率不断上升,这很可能是出现背压的信号。对于写入 Doris 任务,观察数据流入Sink算子的速度和实际写入 Doris 数据库的速度对比。
  1. 排查数据写入 Doris 环节的问题
  • Doris 数据库性能方面
  • 检查 Doris 集群资源:查看 Doris 所在服务器的 CPU、内存、磁盘 I/O 和网络带宽等资源是否紧张。如果 CPU 使用率过高,可能导致写入操作变慢。可以使用系统监控工具(如topiostat等)来检查这些资源的使用情况。
  • Doris 数据库负载情况:查看 Doris 数据库本身的负载,包括当前正在执行的查询数量、写入请求数量等。过多的并发写入或查询可能会影响新数据的写入性能。可以通过 Doris 的管理工具或监控接口来获取这些信息。
  • 检查 Doris 数据存储和分区策略:如果数据写入的表在 Doris 中的分区不合理,可能会导致写入性能下降。例如,数据集中写入某一个分区,而该分区所在磁盘 I/O 负载过重。检查分区策略是否符合数据分布特点,是否需要调整分区键或增加分区数量。
  • 网络连接方面
  • 检查网络稳定性和带宽:确保 Flink 任务与 Doris 数据库之间的网络连接稳定。不稳定的网络可能会导致数据传输延迟或中断,进而产生背压。可以使用网络测试工具(如pingtraceroute等)来检查网络状况。同时,查看网络带宽是否足够,如果带宽不足,考虑增加网络带宽或优化数据传输方式。
  • 检查连接池设置(如果有):如果在 Flink 任务中使用了连接池来管理与 Doris 的连接,检查连接池的配置是否合理。例如,连接池大小过小可能导致获取连接等待时间过长,影响数据写入速度。
  1. 排查 Flink 任务本身的问题
  • 数据处理逻辑方面
  • 检查数据转换和预处理步骤:在数据写入 Doris 之前,可能有一系列的转换、过滤、聚合等操作。检查这些操作是否过于复杂或耗时,导致数据处理速度跟不上流入速度。例如,复杂的聚合操作可能会占用大量的计算资源,使数据不能及时传递到Sink算子进行写入。
  • 数据倾斜问题:数据倾斜可能导致某些任务实例处理的数据量过大,进而影响整体写入速度。检查数据在 Flink 任务中的分布情况,特别是在group byjoin等操作后的数据分布。如果发现数据倾斜,可以考虑调整分区策略、使用随机化操作重新分配数据等方式来解决。
  • Flink 配置和资源方面
  • 检查任务并行度设置:不合理的并行度设置可能导致资源利用不充分或任务负载过重。对于写入 Doris 的任务,确保Sink算子的并行度设置合理,能够充分利用 Doris 的写入资源。如果并行度过低,数据写入速度可能受限;如果并行度过高,可能会给 Doris 带来过高的并发写入压力。
  • 检查 Flink 任务的内存和 CPU 资源分配:确保分配给 Flink 任务的内存和 CPU 资源足够。如果资源不足,任务的处理速度会变慢,容易产生背压。可以根据任务的数据量和复杂度,合理调整 Flink 任务的资源分配。
  1. 日志分析
  • Flink 任务日志:查看 Flink 任务的日志文件,查找可能与背压相关的错误信息或警告。例如,日志中可能会显示某个算子出现了缓冲区满、数据处理超时等情况,这些都可能是导致背压的原因。
  • Doris 数据库日志:检查 Doris 数据库的日志,查看是否有关于写入失败、连接问题、性能瓶颈等相关的记录。这些日志信息可以帮助确定是 Doris 数据库本身的问题还是数据传输过程中的问题。
相关文章
|
14天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
17天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
9天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
14天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
21天前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
4天前
|
云安全 存储 弹性计算
|
6天前
|
云安全 人工智能 自然语言处理
|
9天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
25天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3984 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
3天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
261 3