阿里巴巴编程之夏项目——Apache Flink

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 项目介绍: Apache Flink 是由 Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。

阿里巴巴编程之夏(Alibaba Summer of Code)是一个全球性计划,通过这个计划,学生可以直接参与开源软件开发,在导师(Mentor)的指导下,深度体验真实世界的软件开发,感受开源技术共建的魅力。

另外,学生能够在计划进行中,结实更多开源领域技术大牛和志趣相投的小伙伴;在完成计划后获得由阿里巴巴提供的奖学金、开源贡献者证书并且有机会进入阿里招聘绿色通道;学生编写的代码更有机会被国际开源基金顶级项目采用,让世界各地的人自由使用。

这些收获,不仅仅是未来求职简历上浓墨重彩的一笔,更是学生向高阶开源贡献者晋级的闪亮起点。阿里巴巴编程之夏将于 2019 年 5 月 6 日- 8 月 29 日间展开,学生可以利用暑期时间参与到开源项目中。

项目介绍:

Apache Flink 是由 Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 的运行时本身也支持迭代算法的执行。

Idea list

1.Add a new implementation of the HighAvailabilityServices using etcd:https://issues.apache.org/jira/browse/FLINK-11105

  • Mentor:沙晟阳 @ 成阳 ;GitHub ID:[MalcolmSanders;(https://github.com/MalcolmSanders) Apache YARN、Flink 贡献者; 阿里云计算平台高级开发工程师

2.在树莓派等有限硬件资源的环境下高效的运行 flink,将 flink 应用于 IoT,边缘计算场景

  • Mentor:宋辛童 @ 五藏;Github ID: xintongsong 北京大学博士;阿里巴巴 高级开发工程师

3.通过 Intelij Idea 一站式编写、远程提交和分布式Debug Flink 任务。Intelij Idea 是很好的编程语言 IDE,Flink 是下一代分布式大数据处理引擎,两者结合,在 Intellij Idea 上构建Flink 任务编写、远程任务提交、分布式 Debug 和在线运维的一站式服务将对 Flink 用户带来更好的体验。通过该项目,有助于熟练使用 Flink,提升大数据处理和相关工具的开发使用能力,提交的代码反馈社区,尽早参与到 Flink 生态建设中。

  • Mentor:何健超 @ 迟南; Github id: hejianchao; 阿里巴巴 技术专家

4.State storage is on the critical path of Flink, a stateful computing engine. Basically it's a kv store but with computing-relative requirement, thus an interdisciplinary area. Gemini is a KeyValue store we designed for such scenario. In Gemini, using elastic pages from a few bytes to tens of KB to store the data.
In this topic you need to implement a cache allocator for pages, which aims at supporting off-heap to reduce GC, having high throughput and always replacing cold data with hot ones to increase cache hit ratio and memory utilization.

  • Mentor:李钰 @ 绝顶; Github id: [https://github.com/carp84]
    Apache HBase PMC & committer, Flink/HDFS contributor; 阿里巴巴 高级技术专家

5.State storage is on the critical path of Flink, a state-ful computing engine. Basically it's a kv store but with computing-relative requirement, thus an interdisciplinary area. Gemini is a KeyValue store we designed for such scenario, it's a two-component LSM-tree structure, of which C0 tree is write buffer, and C1 tree could be an enhanced B+-tree or hash table, where hash table offers faster random lookup than sorted-base index.In this topic you need to implement a CSBw-tree, which is a combination of CSB+-tree[1] and Bw-tree[2], which aims at both good cpu cache utility (cache-conscious) and fast random access.

[1] Making B+-Trees Cache Conscious in Main Memory, SIGMOD 2000
[2] The Bw-Tree: A B-tree for New Hardware Platforms, ICDE 2013

  • Mentor:李钰 @ 绝顶;Github id: [https://github.com/carp84]
    Apache HBase PMC & committer, Flink/HDFS contributor; 阿里巴巴 高级技术专家

6.Batch benchmark has matured and been widely used to analyze performance of batch processing technologies. However, There is no suitable benchmark to test streaming framework, which has more performance latitudes and usage scenarios. So we need to develop streaming benchmark to comprehensive test Flink and other streaming processing framework, and optimize Flink according to the benchmark results.

  • Mentor:
    胥平勇 @姬平; Github id: XuPingyong; Apache Flink contributor; 阿里巴巴 技术专家
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
分布式计算 监控 API
flink 入门编程day02
flink 入门编程day02
36 5
|
1月前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1409 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1341 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
142 3
|
1月前
|
Oracle 关系型数据库 流计算
flink cdc 同步问题之报错org.apache.flink.util.SerializedThrowable:如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
XML Java Apache
Apache Flink自定义 logback xml配置
Apache Flink自定义 logback xml配置
152 0
|
1月前
|
消息中间件 Java Kafka
Apache Hudi + Flink作业运行指南
Apache Hudi + Flink作业运行指南
85 1
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
482 5
|
1月前
|
缓存 分布式计算 Apache
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
60 0
|
1月前
|
监控 Apache 开发工具
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
67 0

热门文章

最新文章

推荐镜像

更多