Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地

简介: 2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!

众所周知,LakeHouse 架构是当前大数据领域领先的技术架构之一。LakeHouse 由海外知名大数据公司 Databricks 提出,旨在融合数据湖的灵活性及成本效益与传统数据仓库的强大事务支持、高性能分析能力于一体,并且能够无缝集成机器学习等多种应用场景,为企业提供了更加全面的数据管理和分析平台。


Apache Spark 作为近十几年来大数据领域最优秀的开源项目之一,提供了强大统一的大数据处理和分析能力,涵盖了实时离线数据处理、SQL、图计算、机器学习及深度学习等多个维度,作为 LakeHouse 的核心组件,Spark 在大数据和AI方向持续发力。


Apache Paimon 作为新兴的数据湖存储技术,最初在Flink社区中以 Flink Table Store项目孵化。2023 年,Paimon独立出来成为一个 Apache Incubator项目,2024 年 4 月完成孵化成为了一个Apache顶级项目。Apache Paimon 采用开放的数据格式和技术理念,提供高吞吐、低延迟的数据摄入、更新及查询能力,且与诸多业界主流计算对接,是 LakeHouse 架构中不可或缺的一部分。


为了助力 LakeHouse 架构在企业中的实践与落地,阿里云 EMR 技术团队联合 Apache Paimon 社区,联合举办Apache Spark & Paimon, 助力 LakeHouse 架构生产落地”线下 meetup,邀请阿里云、VIVO、美团等众多业内大咖分享 LakeHouse 架构的核心技术和最佳实践经验,为大数据从业者提供一个开放的分享与交流平台。


活动详情

  • 活动时间:2024年11月15日 13:30-17:30(周五)
  • 活动地点:北京市朝阳区阿里中心-望京A座-05F


立即报名>>



活动亮点

1. 业内大咖云集

本次 Meetup 特邀阿里云、VIVO、美团等知名企业的技术专家现场分享,将为大家带来最前沿的技术洞察和实践经验,分享他们在 LakeHouse 架构实施过程中遇到的挑战与解决方案。


2. 深入探讨 LakeHouse 架构

LakeHouse 架构作为一种新兴的大数据存储与处理架构,融合了数据湖和数据仓库的优势。本次活动将深入探讨LakeHouse 架构的核心技术,包括数据采集、数据存储、数据分析、数据管理等多个方面,帮助企业更好地理解和应用这一创新架构。


3. Apache Spark 与 Paimon 的深度整合

Apache Spark 作为大数据处理的利器,与 Paimon 的深度整合将带来更加强大的数据处理能力。本次 Meetup 将详细介绍 Spark 与 Paimon 的集成实践,分享在具体项目中的应用案例,展示其在提升数据处理效率方面的卓越表现。


4. 最佳实践与成功案例分享

除了技术的探讨,本次 Meetup 还将分享多个企业在 LakeHouse 架构实践中的成功案例。通过这些最佳实践,您将了解到不同企业在不同场景下的应用经验,找到适合自己企业的解决方案,从而推动业务的创新与发展。


期待您的参与

无论您是大数据技术爱好者,还是企业技术决策者,都能通过本次活动找到有价值的信息与灵感。我们期待与您在活动现场相见,共同开启 LakeHouse 架构的探索之旅!


EMR Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台,它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务。EMR Serverless Spark 完全兼容 Paimon,通过内置的 DLF 的元数据实现了和其余阿里云产品如实时计算 Flink 版的元数据互通,形成了完整的流批一体的解决方案。同时支持灵活的作业运行方式和参数配置,能够满足实时分析、生产调度等多项需求。阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖,欢迎体验!

bb0c699fa6bfbaf79a19ec7e60f9bcb3.jpg

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
10月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
515 76
|
6月前
|
分布式计算 Kubernetes 调度
Kubeflow-Spark-Operator-架构学习指南
本指南系统解析 Spark Operator 架构,涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径,助你从部署到贡献,掌握 Kubernetes Operator 核心原理与实战技能。
344 0
|
9月前
|
SQL JSON 分布式计算
Spark SQL架构及高级用法
Spark SQL基于Catalyst优化器与Tungsten引擎,提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行,支持复杂数据类型、窗口函数与多样化聚合操作,结合自适应查询与代码生成技术,实现高性能大数据分析。
601 2
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
3 秒音频也能克隆?拆解 Spark-TTS 架构的极致小样本学习
本文深入解析了 Spark-TTS 模型的架构与原理,该模型仅需 3 秒语音样本即可实现高质量的零样本语音克隆。其核心创新在于 BiCodec 单流语音编码架构,将语音信号分解为语义 Token 和全局 Token,实现内容与音色解耦。结合大型语言模型(如 Qwen 2.5),Spark-TTS 能直接生成语义 Token 并还原波形,简化推理流程。实验表明,它不仅能克隆音色、语速和语调,还支持跨语言朗读及情感调整。尽管面临相似度提升、样本鲁棒性等挑战,但其技术突破为定制化 AI 声音提供了全新可能。
811 35
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
987 58
|
11月前
|
安全 Apache 数据库
【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup,5月24日深圳见!
5月24日,NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域,邀请行业专家分享技术趋势、产品实践及解决方案,助力企业构建高效安全的数据管理体系。时间:14:00-17:30;地点:深圳新一代产业园2栋20楼会议室。线下名额有限(80人),速报名参与深度交流!
309 1
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
1710 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
SQL 运维 BI
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
浙江霖梓早期基于 Apache Doris 进行整体架构与表结构的重构,并基于湖仓一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化湖仓架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。
834 3
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
|
SQL 消息中间件 Serverless
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
393 4
|
SQL 存储 分布式计算
Paimon助力数据湖仓架构实时化升级
本次分享由阿里云高级技术专家李劲松介绍Paimon助力数据湖仓架构实时化升级。内容涵盖四个部分:1) 数据架构的存储演进,介绍Data LakeHouse结合的优势;2) Paimon实时数据湖,强调其批流一体和高效处理能力;3) 数据湖的实时流式处理,展示Paimon在时效性提升上的应用;4) 数据湖非结构化处理,介绍Paimon对非结构化数据的支持及AI集成。Paimon通过优化存储格式和引入LSM技术,实现了更高效的实时数据处理和查询性能,广泛应用于阿里巴巴内部及各大公司,未来将进一步支持AI相关功能。

推荐镜像

更多