流计算

首页 标签 流计算
# 流计算 #
关注
31324内容
|
9小时前
|
Flink + Fluss 实战: Delta Join 原理解析与操作指南
Flink Delta Join 通过复用源表数据替代本地状态,解决双流 Join 状态膨胀问题。结合 Fluss 流存储,实现高效双向 Lookup,显著降低资源消耗与 Checkpoint 时间,提升作业稳定性与恢复速度,已在阿里大规模落地。
Flink + Fluss 实战: Delta Join 原理解析与操作指南
Flink Delta Join通过查询外部存储替代本地状态,解决双流Join状态膨胀问题。结合Fluss存储,实现状态减半、CU降10倍、恢复提速87%、Checkpoint秒级完成,提升作业稳定性与效率。
在 OpenAI 打造流处理平台:超大规模实时计算的实践与思考
本文介绍OpenAI构建流处理平台的实践与挑战。面对Kafka高可用、Python生态兼容、云环境限制等问题,团队基于PyFlink打造跨区域流处理架构,集成Kafka HA组、自研代理与控制平面,支撑实时Embedding生成、特征计算等场景,并推动开源协作与平台自动化演进。
非精准 Top K 检索如何实现?
非精准Top K检索通过离线计算静态质量得分(如PageRank)并预先排序,实现在线快速截断。倒排索引的posting list按质量分降序排列,多关键词查询时通过归并排序高效获取Top K结果,大幅降低在线计算开销,适用于对相关性要求不高的场景。
OOM排查之路:一次曲折的线上故障复盘
本文记录了一次线上服务因Paimon数据湖与RocksDB集成引发的三次内存溢出(OOM)故障排查全过程。通过MAT、NMT、async-profiler等工具,结合监控分析与专家协作,最终定位到RocksDB通过JNI申请堆外内存未释放的根源问题,并推动架构优化:由应用直写改为Flink统一入湖。分享排查思路与工具使用,为同类技术栈提供借鉴。
OOM排查之路:一次曲折的线上故障复盘
本文分享了一次线上服务因Paimon与RocksDB集成引发的三次内存溢出(OOM)故障排查全过程。从线程暴增到堆外内存泄漏,团队历经曲折,结合MAT、NMT、async-profiler等工具,最终定位至SDK中RocksDB通过JNI申请内存未释放的问题,并通过架构优化彻底解决。文章系统梳理了排查思路与工具使用,为类似技术栈提供宝贵经验。
用 Flink 做实时 ETL: 别只盯着算子,真正的灵魂是「语义、状态和扛事能力」
用 Flink 做实时 ETL: 别只盯着算子,真正的灵魂是「语义、状态和扛事能力」
免费试用