活动预告|7月29日 Streaming Lakehouse Meetup·北京站

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: Streaming Lakehouse 首个 Meetup 来啦!7 月 29 日 | 北京 | 线下,来一场 Streaming Lakehouse 实时数据湖的体验之旅!

你是否有过数据难以入湖的抓狂?

你是否有过流批存储不统一的烦恼?

你是否有过入湖更新时效性跟不上的无奈?

Streaming Lakehouse 首个 Meetup 来啦!

7 月 29 日 | 北京 | 线下

来一场 Streaming Lakehouse 实时数据湖的体验之旅!

本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,聚焦大规模 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实践!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起,会碰撞出怎样的火花?敬请期待!

活动亮点

  • 超多实用干货,本场 Meetup 从入湖 Flink CDC、湖存储 Paimon、计算引擎 Flink、批处理 RSS Celeborn、OLAP 分析 StarRocks 全面分享 Streaming Lakehouse 的完整链路,你可以从中获取到为什么要构建 Streaming Lakehouse,如何构建低成本的、准实时的 Streaming Lakehouse,轻松将你的离线数仓实时化!
  • 活动形式多样化,线下线上同步开启,同城可参与线下 Meetup 面对面交流,异地也可在线观看直播,精彩内容不错过;
  • 丰富周边等你拿,报名参加就有机会获得 Flink 社区、Paimon 社区定制的精美周边!

活动议程

嘉宾及议题介绍

议题一|Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座

■ 演讲简介

目前业界主流数据湖存储项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求。Apache Paimon 作为实时数据湖,作为 Streaming Lakehouse 的存储底座,解锁离线数据实时化的场景,带来实时的、低成本的 Lakehouse。

  • 数据湖 2023:机遇与挑战
  • Paimon 实时更新与离线视图
  • Paimon 变更日志与场景
  • Paimon 生态
  • 总结与规划

议题二|基于 Flink CDC 高效构建入湖通道

■ 演讲简介

数据库中存放的数据是最有业务价值的数据源,如何高效地将这些数据摄取到数据湖中是一个非常有价值的主题。Flink CDC 是实时数据集成框架的开源代表,不仅具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势,还提供丰富的 SQL 加工能力,在开源社区中非常受欢迎。Apache Paimon 是从 Flink 社区孵化出来的新兴的数据湖项目, 为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。当用户围绕 Paimon 构建流式湖仓时,通过 Flink CDC 作为入湖通道,可以极大简化湖仓的构建成本,同时解锁整库同步、Schema Evolution 等高级特性。

议题三|Flink Batch SQL Improvements on Lakehouse

■ 演讲简介

Flink 社区最近几个版本一直在投入比较大的精力完善与改进批处理能力,从而让批处理更快更稳定与更易用。这其中包括支持更多的 API 语法,完善数据管理能力。在 QO 层面引入基于稠密树的 Join Reorder 算法,提升多表 Join 性能;优化 DPP,可以覆盖更多的业务场景。在 QE 层面,通过引入 Adaptive Local HashAgg、Runtime Filter、多算子融合 Codegen 等功能,大幅提升批处理的性能。在 SQL 服务化方面,Gateway 支持 JDBC Driver,兼容已有作业提交模式,让作业提交更加方便。通过上述工作,Flink 批处理让 Lakehouse 架构更加简单高效、提升数据处理效率。在本次议题中,我将会介绍这些优化与新特性,以及未来发展规划。

议题四|幸福里基于 Flink&Paimon 的流式数仓实践

■ 演讲简介

幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,会从业务背景,流批一体数仓架构,实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未来规划几个方面来介绍。

议题五|Apache Celeborn: 让 Spark 和 Flink 更快,更稳,更弹性

■ 演讲简介

Apache Celeborn(Incubating)是一个高性能,高可用,可伸缩的通用 Shuffle 服务,支持 Spark,Flink 两大主流引擎(未来将支持 Tez/MR 等更多引擎)。Celeborn在 阿里及多家知名企业支撑每天数十 P 的生产 Shuffle,提升稳定性和性能的同时降低成本。本次分享将介绍 Celeborn 的高性能高可用的核心设计,支持多引擎的统一架构,用户案例,以及如何更好的参与社区。

议题六|使用 Paimon + StarRocks 构建湖仓一体数据分析方案

■ 演讲简介

  • 介绍目前主流的大数据分析技术方案,以及湖仓一体数据分析方案的优势
  • 介绍如何使用 Paimon + StarRocks 构建湖仓一体数据分析体系
  • 介绍使用 StarRocks 分析 Paimon 表格式的技术原理
  • 介绍使用 Paimon + StarRocks 构建实时数仓分析方案以及 StarRocks 社区在 Paimon 上未来的规划

动手实践|使用 Flink 实时发现最热 GitHub 项目

温馨提醒:参与实践环节的同学需要携带电脑!

本次 Meetup 新增动手实践环节,手把手教您玩转实时计算 Flink 版产品。

只需 5 分钟快速找到 GitHub 上炙手可热的 TOP 10 项目,5000CU*H云上资源包免费领取,现场完成实验项目,更有惊喜礼包相送!

加入 Flink-Learning 训练营,开启你的实时计算之旅。

点击链接即刻加入学习:https://developer.aliyun.com/trainingcamp/0bcc1ab57cf841a2af632d6252fecbab

活动详情

时间:7 月 29 日下午 13:00-18:30

地点:北京朝阳区望京凯悦酒店

点击链接观看线上直播:https://gdcop.h5.xeknow.com/sl/2bTgeB

扫下方图片参与报名:

点击即刻参与报名


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
程序员
阿里技术高P访谈之“呆萌”程序员蒋晓伟为何从Facebook到阿里巴巴
跟蒋晓伟约在一个下午进行访谈,他的花名叫量仔,这个名号让笔者的第一感觉是“高富帅”。然而,当见到本尊之后,才发现他完全就是一个“呆萌”版的程序员,这也印证了其在阿里巴巴内网上的标签——“头像蛮萌的”。
10540 2
|
算法 C语言
C语言的伪代码结构
C语言的伪代码结构
268 1
|
Java Maven
SpringBoot项目如何打包、部署
SpringBoot项目如何打包、部署
261 0
|
5月前
|
存储 人工智能 关系型数据库
4年10亿美金,Neon用Serverless PG证明:AI需要的不是“大”,而是“隐形”
AnalyticDB PostgreSQL 版基于Neon架构隆重推出满足 AI 时代应用开发需求的Serverless版本,并且在这之上搭载了结构化分析、向量检索、BM25全文检索和图检索,通过一套引擎满足 AI 应用丰富的数据诉求,支持MCP和OpenAI协议,为企业全面拥抱 AI 配备了数据存储、分析和应用的 “关键” 能力,帮助企业火箭式启动跑赢时代。
|
11月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
998 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
SQL 数据可视化 前端开发
从探索式数据分析到现代 BI 仪表盘:Superset 2.0
从探索式数据分析到现代 BI 仪表盘:Superset 2.0
766 0
|
存储 NoSQL 数据处理
Apache Paimon流式湖仓学习交流群成立
Apache Paimon流式湖仓学习交流群成立
644 59
|
弹性计算 网络安全
快速部署 RAGFlow 社区版
RAGFlow是一个基于深度文档理解的开源RAG(检索增强生成)引擎。当与LLM集成时,它能够提供真实的问答功能,并得到各种复杂格式数据的充分引用的支持。本文介绍如何通过计算巢快速部署 RAGFlow社区版。
快速部署 RAGFlow 社区版
|
SQL 算法 Apache
Apache Doris Profile&Explain详解
Apache Doris Profile&Explain详解
1412 0