Apache Paimon:重塑阿里智能引擎数据处理新纪元,解锁高效存储与实时分析潜能!

简介: 【8月更文挑战第2天】探索 Apache Paimon 在阿里智能引擎的应用场景

随着大数据技术的飞速发展,企业对于数据处理的实时性、灵活性和成本效益提出了更高的要求。Apache Paimon,作为一项流式数据湖存储技术,凭借其高吞吐、低延迟及与主流计算引擎的无缝集成能力,逐渐在大数据领域崭露头角。本文将以阿里智能引擎为例,探讨Apache Paimon在其应用场景中的具体应用,解答为何Paimon成为阿里智能引擎不可或缺的一部分。

为何选择Apache Paimon?
阿里智能引擎在处理海量数据时,面临着多个挑战:异构数据源多、业务逻辑复杂、性能调优难以及存储成本高昂等。为了应对这些挑战,阿里智能引擎团队深入调研了业界多种数据湖产品,最终选择Apache Paimon作为其数据湖的湖格式。这一选择主要基于以下几点考虑:

高效存储与查询:Paimon结合了列式存储和LSM树结构,能够在大规模数据输入场景下提供高性能的数据写入和查询能力,满足实时分析的需求。
流批一体:Paimon支持流处理和批处理的无缝切换,使得同一份存储可以同时服务于流处理和批处理作业,降低了开发和运维的复杂度。
低成本:相比传统分布式存储服务,Paimon在存储成本上具有显著优势,尤其适用于实效性要求不高的场景。
生态兼容性:Paimon与Apache Flink、Apache Spark等主流计算引擎无缝集成,推动了Streaming Lakehouse架构的普及和发展。
应用场景详解
样本生成链路
在阿里智能引擎的样本生成链路中,Paimon的应用尤为显著。该链路时效性要求不高(约5分钟),但数据量大且计算逻辑复杂。传统的处理方式中,流批完全分开,存储成本高且开发维护难度大。引入Paimon后,全链路不再依赖分布式KV存储服务,而是利用Paimon作为数据镜像及DimJoin维表,实现数据的统一存储和高效处理。

示例代码(伪代码):

sql
-- 假设存在用户点击日志表click_logs和Odps表user_profiles
-- 使用Flink进行数据处理并写入Paimon

CREATE TABLE paimon_sample_table (
user_id BIGINT,
click_time TIMESTAMP,
product_id BIGINT,
...
) WITH (
'connector' = 'paimon',
'url' = 'paimon://your-paimon-url',
...
);

INSERT INTO paimon_sample_table
SELECT
c.user_id,
c.click_time,
p.product_id,
...
FROM click_logs c
JOIN user_profiles p
ON c.user_id = p.user_id
-- 进行复杂的ETL和JOIN操作
;
在线检索引擎优化
另一个应用场景是优化在线检索引擎的数据处理链路。传统方式中,索引平台读取消息队列中的样本数据并构建索引的过程存在长尾效应,导致产出延迟。通过引入Paimon,样本平台可以直接将样本数据写入Paimon中,减少依赖组件,提升整体链路的可控性和运维效率。

总结
Apache Paimon在阿里智能引擎中的应用,不仅解决了传统数据处理链路中的痛点,还通过其高效、灵活、低成本的特性,为阿里智能引擎的数据处理能力注入了新的活力。未来,随着Streaming Lakehouse架构的普及和发展,Paimon将在更多场景中发挥其独特优势,助力企业实现数据价值的最大化。

相关文章
|
2月前
|
存储 SQL Apache
为什么 Apache Doris 是比 Elasticsearch 更好的实时分析替代方案?
本文将从技术选型的视角,从开放性、系统架构、实时写入、实时存储、实时查询等多方面,深入分析 Apache Doris 与 Elasticsearch 的能力差异及性能表现
为什么 Apache Doris 是比 Elasticsearch 更好的实时分析替代方案?
|
2月前
|
SQL 存储 人工智能
Apache Flink 2.0.0: 实时数据处理的新纪元
Apache Flink 2.0.0 正式发布!这是自 Flink 1.0 发布九年以来的首次重大更新,凝聚了社区两年的努力。此版本引入分离式状态管理、物化表、流批统一等创新功能,优化云原生环境下的资源利用与性能表现,并强化了对人工智能工作流的支持。同时,Flink 2.0 对 API 和配置进行了全面清理,移除了过时组件,为未来的发展奠定了坚实基础。感谢 165 位贡献者的辛勤付出,共同推动实时计算进入新纪元!
336 1
Apache Flink 2.0.0: 实时数据处理的新纪元
|
2月前
|
SQL 分布式计算 流计算
官宣|Apache Paimon 1.0 发布公告
官宣|Apache Paimon 1.0 发布公告
107 8
|
2月前
|
存储 分布式数据库 Apache
小米基于 Apache Paimon 的流式湖仓实践
小米基于 Apache Paimon 的流式湖仓实践
小米基于 Apache Paimon 的流式湖仓实践
|
3月前
|
存储 分布式数据库 Apache
小米基于 Apache Paimon 的流式湖仓实践
本文整理自Flink Forward Asia 2024流式湖仓专场分享,由计算平台软件研发工程师钟宇江主讲。内容涵盖三部分:1)背景介绍,分析当前实时湖仓架构(如Flink + Talos + Iceberg)的痛点,包括高成本、复杂性和存储冗余;2)基于Paimon构建近实时数据湖仓,介绍其LSM存储结构及应用场景,如Partial-Update和Streaming Upsert,显著降低计算和存储成本,简化架构;3)未来展望,探讨Paimon在流计算中的进一步应用及自动化维护服务的建设。
143 0
小米基于 Apache Paimon 的流式湖仓实践
|
4月前
|
存储 SQL 监控
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
灵犀科技早期基于 Hadoop 构建大数据平台,在战略调整和需求的持续扩增下,数据处理效率、查询性能、资源成本问题随之出现。为此,引入 [Apache Doris](https://doris.apache.org/) 替换了复杂技术栈,升级为集存储、加工、服务为一体的统一架构,实现存储成本下降 60%,计算效率提升超 10 倍的显著成效。
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
|
6月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
6月前
|
监控 Cloud Native BI
8+ 典型分析场景,25+ 标杆案例,Apache Doris 和 SelectDB 精选案例集(2024版)电子版上线
飞轮科技正式推出 Apache Doris 和 SelectDB 精选案例集 ——《走向现代化的数据仓库(2024 版)》,汇聚了来自各行各业的成功案例与实践经验。该书以行业为划分标准,辅以使用场景标签,旨在为读者提供一个高度整合、全面涵盖、分类清晰且易于查阅的学习资源库。
|
6月前
|
分布式计算 大数据 Apache
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!
205 3
|
5月前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
528 33
The Past, Present and Future of Apache Flink

推荐镜像

更多