Apache Flink 邀您共度「2022开源之夏」,成为开源新星

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 开源项目资深维护者(社区导师)亲自指导,用 3 个月的时间感受开源技术共建的魅力,完成项目并贡献给社区后,还将获得活动奖金和结项证书。

O1CN01kfdAMd1WeOtHOAdfQ_!!6000000002813-2-tps-709-1063.png

活动介绍

开源之夏是由 “开源软件供应链点亮计划” 发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,同时培养和发掘更多优秀的开发者。

开源之夏活动联合了包括 Apache Flink 在内的国内外各大开源社区,针对重要开源软件的开发与维护提供项目任务,并面向全球高校学生开放报名。学生可在本活动中自主选择感兴趣的项目任务进行申请,并在中选后获得该开源项目资深维护者(社区导师)的亲自指导,通过 3 个月的时间,深度体验真实世界的软件开发,感受开源技术共建的魅力。完成项目并贡献给社区后,参与学生还将获得开源之夏活动奖金和结项证书。

开源之夏活动官网:https://summer-ospp.ac.cn/

社区介绍

Apache Flink 是一款高性能分布式流批一体计算引擎,支持流处理、批处理、复杂事件处理、机器学习等计算场景。在流计算场景,Apache Flink 一直在业界保持着领先地位。在开源方面,Flink 已连续三年蝉联 Apache 基金会最活跃开源项目之一的殊荣,有超过 1000 名遍布全球的贡献者为 Flink 贡献。作为流计算领域的首选引擎,Apache Flink 已经被众多国内外知名公司采用,并逐渐成为企业大数据的核心基础设施,包括 Apple、Netflix、Amazon、Uber、Cloudera、LinkedIn、阿里巴巴、滴滴、美团、快手、字节跳动等公司。

项目介绍

Apache Flink 在本次 “开源之夏” 活动中共发布了 3 个课题,供感兴趣的同学报名参与。

项目 1:Flink Table Store 预聚合存储模型

项目描述:

Flink Table Store 是一个流批统一的存储,用于在 Flink 中为流批处理建立动态表,支持实时流消费和实时 OLAP 查询。Flink Table Store 面向更新场景提供 OLAP 的能力,大量更新数据写入 Table Store 后,后台会合并相同主键的数据,默认是保留最后一条。我们可以引入更丰富的合并策略,其中已经引入的是 PartialUpdateMergeFunction,合并时补全非 NULL 字段。我们可以引入更强大的合并策略,比如支持预聚合的合并。

项目产出:

  • 完成该功能的开发,并贡献到 Flink Table Store 社区;
  • 完成预聚合的 API 设计;
  • 完成预聚合的 E2E 测试;
  • 实现多个聚合算子;
  • (可选) 实现 MATERIALIZED VIEW 语法。

技能要求:Java、存储相关知识

项目仓库:https://github.com/apache/flink-table-store

项目导师:李劲松 lzljs3620320@apache.org

项目难度:基础

项目 2:面向 MySQL CDC 连接器的数据限流功能

项目描述:

目前 Flink 的 Source 原生不支持限流,基于 Flink Source 的 CDC 连接器也无法实现限流功能,当多并发从上游数据库读取数据时存在源库负载大的风险,本项目通过在 Flink Source上提供限流功能,CDC 连接器适配后,实现读取数据时的限流。

项目产出:

学习 Flink CDC 技术原理,在开源社区设计并实现通用的 CDC 数据源限流方案,提升 Flink CDC 在大规模数据业务场景下的稳定性。

  • 在 Flink 社区 完成 Source 数据限流 API 设计,获得社区认可;
  • 基于限流 API,在 Flink CDC 社区实现 MySQL CDC 数据限流功能;
  • 增加端到端测试,验证数据限流能正确生效。

技能要求:Java、数据集成相关知识

项目仓库:https://github.com/ververica/flink-cdc-connectors

项目导师:徐榜江 leonard@apache.org

项目难度:基础

项目 3:设计并开发实现 Flink JobManager 进程拆分方案

项目描述:

Flink 目前采用一个 JobManager + 多个 TaskManager 的进程模型,其中 JobManager 进程中又包含了 Dispatcher、ResourceManager、JobMasters 等多个组件。这一进程模型在部分特殊场景下存在一些问题,例如在组成超大规模集群时存在单点可用性及性能瓶颈、在 IoT 嵌入式设备上使用时资源开销过大等。请针对这些问题,对 Flink 的进程模型进行优化改造。

项目产出:

  • 基础要求:设计并开发实现 Flink JobManager 进程拆分方案,并贡献社区;
  • 进阶要求 (可选):Flink JobManager 进程拆分方案下,Dispatcher、ResourceManager 故障作业无需重启;
  • 进阶要求 (可选):设计并开发实现 Flink 单进程模式,并贡献社区。

技能要求:Java、分布式协调机制、高可用机制

项目仓库:https://github.com/apache/flink

项目导师:宋辛童 xtsong@apache.org

项目难度:进阶

如何参与

1. 申请资格

  • 本活动面向年满 18 周岁在校学生;
  • 暑期即将毕业的学生,只要在申请时学生证处在有效期内,就可以提交申请;
  • 海外学生可提供录取通知书、学生卡、在读证明等文件用于证明学生身份。

2. 参与流程

有意向参与的同学请注意不要错过 5 月 21 日 ~ 6 月 4 日的项目申请书的投递时间。

O1CN01PBptMq1m3KgaLif2O_!!6000000004898-2-tps-922-1614.png

3. 参与建议

O1CN01audMIT27Al2HMnfTF_!!6000000007757-0-tps-1056-1371.jpg


Flink CDC Meetup · Online

O1CN01yaX99t1HxtVhJJwGU_!!6000000000825-2-tps-2300-1000.png"

时间:5 月 21 日 9:00-12:25

PC 端直播观看:https://developer.aliyun.com/live/248997

移动端建议微信扫一扫关注 ApacheFlink 视频号预约观看:

O1CN01u6QYdB1YoawEPGHLm_!!6000000003106-2-tps-1000-500.png

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

O1CN01tmtpiy1iazJYZdixL_!!6000000004430-2-tps-899-548.png"

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1425 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1367 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
147 3
|
1月前
|
Oracle 关系型数据库 流计算
flink cdc 同步问题之报错org.apache.flink.util.SerializedThrowable:如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
XML Java Apache
Apache Flink自定义 logback xml配置
Apache Flink自定义 logback xml配置
152 0
|
1月前
|
消息中间件 Java Kafka
Apache Hudi + Flink作业运行指南
Apache Hudi + Flink作业运行指南
86 1
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
484 5
|
1月前
|
缓存 分布式计算 Apache
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
62 0
|
1月前
|
监控 Apache 开发工具
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
67 0
|
1月前
|
SQL Java Apache
超详细步骤!整合Apache Hudi + Flink + CDH
超详细步骤!整合Apache Hudi + Flink + CDH
91 0

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多