Delta Join:为超大规模流处理实现计算与历史数据解耦
Delta Join(FLIP-486)是Flink流式Join的范式革新,通过将历史数据存储与计算解耦,实现按需查询外部存储(如Fluss、Paimon),避免状态无限增长。它解决了传统Join在高基数场景下的状态爆炸问题,显著降低资源消耗:状态减少50TB,成本降10倍,Checkpoint从小时级缩短至秒级,恢复速度提升87%。兼容标准SQL,自动优化转换,适用于海量数据实时关联场景,推动流处理迈向高效、稳定、可扩展的新阶段。
Delta Join:为超大规模流处理实现计算与历史数据解耦
Delta Join(FLIP-486)是Flink流式Join的范式革新,通过将计算与历史数据解耦,避免传统Join因存储全量状态导致的资源爆炸。它采用无状态查询机制,按需从Fluss或Paimon等外部存储获取数据,显著降低状态大小、Checkpoint时间及恢复成本。实测中消除50TB状态,资源消耗降10倍,CPU内存节省超80%,作业恢复提速87%。兼容标准SQL,自动优化转换,适用于高基数流式关联、实时审计等场景,标志着大规模流处理进入高效稳定新阶段。
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
Quick BI使用案例02:基于人员维度的指定时间段订单分组排序
本文介绍Quick BI基于人员维度的指定时间段内订单分组排序的两种方案:通过使用占位符和ROW_NUMBER()函数建自定义SQL数据集,在明细表中实现。或者通过物理表建数据集,在交叉表中利用计算字段与累计计算实现。帮助用户按人员维度展示指定时间段内的订单序列,更好的进行数据分析。
货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
货拉拉是国内领先的同城货运数字化平台,成立于 2013 年。截⾄2025 年 4⽉ ,货拉拉业务覆盖全球 14 个市场 ,400+ 城市 ,其中中国内地总共覆盖 363 座城市 ,⽉活司机达 120 万 ,⽉活⽤户达 1400 万, 并在全球设有 6 个数据中⼼。作为共享经济模式的代表企业 ,货拉拉通过移动互联⽹技术整合社会运⼒资源 ,为⽤户提供即时货运、企业物流、搬家服务等多元化解决⽅案。