Apache Flink 邀您共度「2022开源之夏」,成为开源新星

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 开源项目资深维护者(社区导师)亲自指导,用 3 个月的时间感受开源技术共建的魅力,完成项目并贡献给社区后,还将获得活动奖金和结项证书。

O1CN01kfdAMd1WeOtHOAdfQ_!!6000000002813-2-tps-709-1063.png

活动介绍

开源之夏是由 “开源软件供应链点亮计划” 发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,同时培养和发掘更多优秀的开发者。

开源之夏活动联合了包括 Apache Flink 在内的国内外各大开源社区,针对重要开源软件的开发与维护提供项目任务,并面向全球高校学生开放报名。学生可在本活动中自主选择感兴趣的项目任务进行申请,并在中选后获得该开源项目资深维护者(社区导师)的亲自指导,通过 3 个月的时间,深度体验真实世界的软件开发,感受开源技术共建的魅力。完成项目并贡献给社区后,参与学生还将获得开源之夏活动奖金和结项证书。

开源之夏活动官网:https://summer-ospp.ac.cn/

社区介绍

Apache Flink 是一款高性能分布式流批一体计算引擎,支持流处理、批处理、复杂事件处理、机器学习等计算场景。在流计算场景,Apache Flink 一直在业界保持着领先地位。在开源方面,Flink 已连续三年蝉联 Apache 基金会最活跃开源项目之一的殊荣,有超过 1000 名遍布全球的贡献者为 Flink 贡献。作为流计算领域的首选引擎,Apache Flink 已经被众多国内外知名公司采用,并逐渐成为企业大数据的核心基础设施,包括 Apple、Netflix、Amazon、Uber、Cloudera、LinkedIn、阿里巴巴、滴滴、美团、快手、字节跳动等公司。

项目介绍

Apache Flink 在本次 “开源之夏” 活动中共发布了 3 个课题,供感兴趣的同学报名参与。

项目 1:Flink Table Store 预聚合存储模型

项目描述:

Flink Table Store 是一个流批统一的存储,用于在 Flink 中为流批处理建立动态表,支持实时流消费和实时 OLAP 查询。Flink Table Store 面向更新场景提供 OLAP 的能力,大量更新数据写入 Table Store 后,后台会合并相同主键的数据,默认是保留最后一条。我们可以引入更丰富的合并策略,其中已经引入的是 PartialUpdateMergeFunction,合并时补全非 NULL 字段。我们可以引入更强大的合并策略,比如支持预聚合的合并。

项目产出:

  • 完成该功能的开发,并贡献到 Flink Table Store 社区;
  • 完成预聚合的 API 设计;
  • 完成预聚合的 E2E 测试;
  • 实现多个聚合算子;
  • (可选) 实现 MATERIALIZED VIEW 语法。

技能要求:Java、存储相关知识

项目仓库:https://github.com/apache/flink-table-store

项目导师:李劲松 lzljs3620320@apache.org

项目难度:基础

项目 2:面向 MySQL CDC 连接器的数据限流功能

项目描述:

目前 Flink 的 Source 原生不支持限流,基于 Flink Source 的 CDC 连接器也无法实现限流功能,当多并发从上游数据库读取数据时存在源库负载大的风险,本项目通过在 Flink Source上提供限流功能,CDC 连接器适配后,实现读取数据时的限流。

项目产出:

学习 Flink CDC 技术原理,在开源社区设计并实现通用的 CDC 数据源限流方案,提升 Flink CDC 在大规模数据业务场景下的稳定性。

  • 在 Flink 社区 完成 Source 数据限流 API 设计,获得社区认可;
  • 基于限流 API,在 Flink CDC 社区实现 MySQL CDC 数据限流功能;
  • 增加端到端测试,验证数据限流能正确生效。

技能要求:Java、数据集成相关知识

项目仓库:https://github.com/ververica/flink-cdc-connectors

项目导师:徐榜江 leonard@apache.org

项目难度:基础

项目 3:设计并开发实现 Flink JobManager 进程拆分方案

项目描述:

Flink 目前采用一个 JobManager + 多个 TaskManager 的进程模型,其中 JobManager 进程中又包含了 Dispatcher、ResourceManager、JobMasters 等多个组件。这一进程模型在部分特殊场景下存在一些问题,例如在组成超大规模集群时存在单点可用性及性能瓶颈、在 IoT 嵌入式设备上使用时资源开销过大等。请针对这些问题,对 Flink 的进程模型进行优化改造。

项目产出:

  • 基础要求:设计并开发实现 Flink JobManager 进程拆分方案,并贡献社区;
  • 进阶要求 (可选):Flink JobManager 进程拆分方案下,Dispatcher、ResourceManager 故障作业无需重启;
  • 进阶要求 (可选):设计并开发实现 Flink 单进程模式,并贡献社区。

技能要求:Java、分布式协调机制、高可用机制

项目仓库:https://github.com/apache/flink

项目导师:宋辛童 xtsong@apache.org

项目难度:进阶

如何参与

1. 申请资格

  • 本活动面向年满 18 周岁在校学生;
  • 暑期即将毕业的学生,只要在申请时学生证处在有效期内,就可以提交申请;
  • 海外学生可提供录取通知书、学生卡、在读证明等文件用于证明学生身份。

2. 参与流程

有意向参与的同学请注意不要错过 5 月 21 日 ~ 6 月 4 日的项目申请书的投递时间。

O1CN01PBptMq1m3KgaLif2O_!!6000000004898-2-tps-922-1614.png

3. 参与建议

O1CN01audMIT27Al2HMnfTF_!!6000000007757-0-tps-1056-1371.jpg


Flink CDC Meetup · Online

O1CN01yaX99t1HxtVhJJwGU_!!6000000000825-2-tps-2300-1000.png"

时间:5 月 21 日 9:00-12:25

PC 端直播观看:https://developer.aliyun.com/live/248997

移动端建议微信扫一扫关注 ApacheFlink 视频号预约观看:

O1CN01u6QYdB1YoawEPGHLm_!!6000000003106-2-tps-1000-500.png

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

O1CN01tmtpiy1iazJYZdixL_!!6000000004430-2-tps-899-548.png"

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
326 33
The Past, Present and Future of Apache Flink
|
3月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
919 13
Apache Flink 2.0-preview released
|
3月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
129 3
|
9天前
|
消息中间件 存储 Apache
恭喜 Apache RocketMQ、Apache Seata 荣获 2024 开源创新榜单“年度开源项目”
近日,以“新纪天工、开物焕彩——致敬开源的力量”为活动主题的“重大科技成就发布会(首场)”在国家科技传播中心成功举办,并隆重揭晓了 2024 开源创新榜单,旨在致敬中国开源力量,传播推广开源科技成就,营造中国开源创新生态。2024 年开源创新榜单由中国科协科学技术传播中心、中国计算机学会、中国通信学会、中国科学院软件研究所共同主办,中国开发者社区承办,以王怀民院士为首组建评审委员会,进行研讨评审,面向中国开源行业领域,遴选具有创新性、贡献度和影响力的开源项目、社区、应用场景与开源事件。在评审出的 10 个年度开源项目中,Apache RocketMQ、Apache Seata 成功入选。
|
2月前
|
消息中间件 监控 数据可视化
Apache Airflow 开源最顶级的分布式工作流平台
Apache Airflow 是一个用于创作、调度和监控工作流的平台,通过将工作流定义为代码,实现更好的可维护性和协作性。Airflow 使用有向无环图(DAG)定义任务,支持动态生成、扩展和优雅的管道设计。其丰富的命令行工具和用户界面使得任务管理和监控更加便捷。适用于静态和缓慢变化的工作流,常用于数据处理。
Apache Airflow 开源最顶级的分布式工作流平台
|
2月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
3月前
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
253 0
|
SQL 大数据 Apache
Apache Flink 2021 最新入门课程 | 图谱精选课程
轻松收获 Flink 生产环境开发技能
Apache Flink 2021 最新入门课程 | 图谱精选课程
|
5月前
|
存储 消息中间件 Java
Apache Flink 实践问题之原生TM UI日志问题如何解决
Apache Flink 实践问题之原生TM UI日志问题如何解决
54 1
|
4月前
|
SQL 消息中间件 关系型数据库
Apache Doris Flink Connector 24.0.0 版本正式发布
该版本新增了对 Flink 1.20 的支持,并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多