开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

基于DLF构建实时数据湖

2026-02-14 317

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DLF

DLF产品的核心价值

管理和优化：

湖表管理和优化
统一元数据，引擎平权访问
存储数据冷热分层

企业级安全：

细粒度权限管控、列级权限、多引擎复用统一权限
数据跨主账号共享
访问日志、审计日志等

低成本：

高效湖表优化降低计算成本
IO吞吐优化降低IO成本
智能存储优化降低存储成本和Paimon上手成本

多模态：

文本，图像，视频，音频，多模态数据
支持Table视图和File视图

文章标签：

开源大数据平台 E-MapReduce

存储

安全

墨祤

5月前

存储分布式计算 OLAP

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

人力家资深数据工程师石玉阳（Thorne），Flink-CDC Contributor，分享其公司湖仓一体实践：以Paimon为数据基座、StarRocks为OLAP引擎、Flink+Fluss实现湖流融合，打通离线/实时/增量计算，支持多模态与DATA+AI演进，构建开放、统一、可持续的大数据架构。（239字）

墨祤

450 2 3

墨祤

5月前

存储运维分布式计算

诗悦游戏基于DLF与EMR StarRocks降本38%

诗悦网络（2014年成立）是千人规模的研运一体手游公司，代表作有《长安幻想》《永夜降临》等。为支撑PB级开放世界新游《望月》，其原半托管StarRocks数据平台面临高成本、难运维、稳定性差等痛点。阿里云以Serverless StarRocks+DLF Paimon数据湖方案实现存算分离、多租户隔离与全托管运维，总成本降38%，查询性能提升40%+，RPO=0，全面赋能实时/近实时/离线场景。

墨祤

419 3 4

阿里云大数据

6月前

分布式计算 Serverless 测试技术

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark，体验“实时分析冠军”与“批处理之神”的极致性能表现！

阿里云大数据

794 2 2

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

阿里云开发者

3月前

人工智能安全 API

深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践

文章内容基于作者个人技术实践与独立思考，旨在分享经验，仅代表个人观点。

阿里云开发者

3619 75 85

深度解析 Claude Code 在 Prompt / Context / Harness 的设计与实践

阿里云大数据

5月前

存储分布式计算数据建模

淘宝闪购基于阿里云 EMR Serverless Spark&Paimon的湖仓实践：超大规模下的特征生产&多维分析双提效

本文介绍阿里云 Serverless Spark + Paimon 在淘宝闪购大数据湖仓场景的应用。

阿里云大数据

774 2 2

墨祤

8月前

存储人工智能分布式计算

阿里云DLF 3.0：面向AI时代的智能全模态湖仓管理平台

在2025年云栖大会，阿里云发布DLF 3.0，升级为面向AI时代的智能全模态湖仓管理平台。支持结构化与非结构化数据统一管理，实现秒级实时处理、智能存储优化与细粒度安全控制，助力企业高效构建Data+AI基础设施。

墨祤

2366 3 3

灵杰开发者

9月前

人工智能数据处理 API

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新，共筑基于 Apache Flink Agents 的智能体 AI 未来

Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目，旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架，实现数据与智能的实时融合。

灵杰开发者

1480 6 7

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新，共筑基于 Apache Flink Agents 的智能体 AI 未来

灵杰开发者

存储 Rust Go

介绍一下这只小水獭 —— Fluss Logo 背后的故事

Fluss是一款开源流存储项目，致力于为Lakehouse架构提供高效的实时数据层。其全新Logo以一只踏浪前行的小水獭为核心形象，象征流动性、适应性和友好性。水獭灵感源于“Fluss”德语中“河流”的含义，传递灵活与亲和力。经过30多版设计迭代，最终呈现动态活力的视觉效果。Fluss计划捐赠给Apache软件基金会，目前已开启孵化提案。社区还推出了系列周边礼品，欢迎加入钉钉群109135004351参与交流！

灵杰开发者

1158 3 3

灵杰开发者

8月前

存储 SQL 缓存

Delta Join：为超大规模流处理实现计算与历史数据解耦

Delta Join（FLIP-486）是Flink流式Join的范式革新，通过将历史数据存储与计算解耦，实现按需查询外部存储（如Fluss、Paimon），避免状态无限增长。它解决了传统Join在高基数场景下的状态爆炸问题，显著降低资源消耗：状态减少50TB，成本降10倍，Checkpoint从小时级缩短至秒级，恢复速度提升87%。兼容标准SQL，自动优化转换，适用于海量数据实时关联场景，推动流处理迈向高效、稳定、可扩展的新阶段。

灵杰开发者

847 1 1

实时数仓Hologres团队

存储消息中间件分布式计算

Hologres实时数仓在B站游戏的建设与实践

本文介绍了B站游戏业务中实时数据仓库的构建与优化过程。为满足日益增长的数据实时性需求，采用了Hologres作为核心组件优化传统Lambda架构，实现了存储层面的流批一体化及离线-实时数据的无缝衔接。文章详细描述了架构选型、分层设计（ODS、DWD、DIM、ADS）及关键技术挑战的解决方法，如高QPS点查、数据乱序重写等。目前，该实时数仓已广泛应用于运营分析、广告投放等多个场景，并计划进一步完善实时指标体系、扩展明细层应用及研发数据实时解析能力。

实时数仓Hologres团队

964 0 0

大数据与机器学习

基于DLF构建实时数据湖

DLF产品的核心价值

开源大数据平台 E-MapReduce

热门文章

最新文章

相关电子书