超强攻略!看完拿 Apache Flink 极客挑战赛全场最佳「MVP」

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 垃圾图片分类与 Flink TPC-DS 性能优化两大赛题重要知识点及相关工具解析。

首届 Apache Flink(以下简称 Flink)极客挑战赛自 7 月 24 日上线以来已有 1000+ 参赛队伍报名。针对极客挑战赛垃圾图片分类与 Flink TPC-DS 性能优化两大赛题涉及的重要知识点及相关工具使用已在每周直播课程中分享,本文将为大家奉上两大赛题超详细攻略,揭秘两大赛题的核心关键。

Apache Flink极客挑战赛-01.jpg

赛题详细解析

垃圾图片分类及 Flink TPC-DS 性能优化两大赛题所需用到的数据集、开发或性能优化过程的详细说明等已全部更新在官网,以下对赛题重点内容进行说明。

垃圾图片分类赛题说明

垃圾图片分类需要参赛选手使用 Flink 和 intel Analytics Zoo 实现对垃圾图片的识别与分类功能,系统给定 600 张图片,由参赛队伍提供程序进行预测,根据预测结果进行打分。

划重点:实时图片分类的速度与预测的准确度是解题关键;分数计算方法为(500 毫秒内识别准确图片数 / 总图片数[600])*100。

1.数据说明

  • 初赛

给定垃圾图片样例视频展示 100 个分类的 300 张 jpg 图片(用户本地调试可以从网上下载)和训练好的垃圾图片的分类模型(包括模型输入数据格式等参数)。大赛组委会提供运行环境。样例视频地址请见下文详细开发流程说明链接。

  • 复赛

给定垃圾图片样例视频展示 100 个分类的 300 张 jpg 图片(用户本地调试可以从网上下载)。参赛队伍通过使用 Flink 和 intel Analytics Zoo 实现实时垃圾图片分类算法(模型定义使用 Tensorflow python 接口,运行作业使用 Flink),包括模型训练和模型预测。用户上传算法代码,平台将提供约 6000 张垃圾图片用于训练数据集, 3 小时内训练出垃圾图片分类模型,然后运行给定垃圾图片集合(600 张垃圾图片)根据用户训练出的模型,使用 Flink 实现实时垃圾图片分类。

排名规则:根据上述计算分数从高到低排名。

2.开发流程

如何安装至本地仓库、获取模型路径、图片目录结构、提交 jar 包到天池平台、模型说明、Flink 运行环境说明等官网已更新详细步骤及开发代码。

数据集下载及详细开发流程说明

https://tianchi.aliyun.com/competition/entrance/231743/information

3.学习资料

a.TensorFlow On Flink

b.Anlytics-Zoo 构建统一的大数据分析+AI流水线

Flink TPC-DS 性能优化赛题说明

Flink TPC-DS 性能优化需要参赛队伍使用大赛提供的 Flink 分支,进行 Flink 代码优化以提升 Flink SQL 执行效率, 组委会提供 Benchmark 工具供参赛队伍自行测试。 比赛阶段,选手将最终优化后的 Flink 代码打包,通过天池平台提交,天池平台会使用相同的性能测评工具,进行评测、排名。

划重点:优化是本赛题最主要的部分,对于 Flink 代码和配置的优化 ,包含但不限于以下模块:

  • SQL 优化,优化出更合理的 SQL 执行 Plan。
  • 算子优化, 优化出更高效的 SQL 执行算子。
  • 引擎优化, 优化调度,数据传输等等,可以让作业执行更快速。

1.赛题解读

  • 初赛

在给定的非 DCPMM 机器环境下,优化 Flink 系统及运行参数,对给定的 TPC-DS query 按照指定的顺序执行,循环三次。

  • 复赛

使用包含 DCPMM 硬件的机器,要求参赛队伍基于 DCPMM 进一步探索并实现可能的优化途径。

2.赛题要求

比赛使用的测试数据集为 100 G,用户自行用 Benchmark 工具生成,生成数据集的随机因子组委会不公开。

比赛使用 SQL query 为 TPC-DS 工具生成的 99 个 SQL(含变种 SQL),共计 103 个,组委会从中选择 20 条 SQL 进行评测。

选手可以进行 SQL 优化,执行 Plan 算子优化,引擎优化,调度优化,数据传输优化等,以便让 SQL 作业执行更快速。

选手每天有三次提交作业的机会,每个自然日提供 5 次代码运行机会。

组委会保留对赛题修改的权利。

3.详细说明

关于性能优化赛题涉及的工程结构、工程代码、生成数据集和 query、优化代码、性能评测、提交作业及格式转换工具等详细说明文档已上线:

1.工程结构
2.工程代码
3.生成数据集和 query
4.优化 Flink 代码
5.性能评测
  5.1 本地 Intellij 测试
  5.2 集群运行
6.提交作业至天池平台
7.格式转换工具

完整文档说明:
https://tianchi.aliyun.com/competition/entrance/231742/information

4.学习资料

a.深度探索 Flink SQL

b.Flink Runtime 核心机制剖析

c.Take advantage of Intel Optane DCPM in Flink workload

程序员鼓励师活动

即日起,报名参赛选手成功邀请身边小伙伴参赛,将获得鼓励师奖励。

报名时填写邀请人手机号或昵称即可,易重名同学建议名字+自定义编号哦,如李明2~

image.png

1.邀请两名小伙伴成功报名,可获得 Flink 定制马克杯一枚。

2.邀请四名小伙伴成功报名参赛,可获得 Flink 定制单肩包一个。(兑换上限为6人)

3.继续邀请还将进入鼓励师排行榜,榜单每周在技术圈更新,初赛截止时榜单为最终榜单。

鼓励师特别奖励:

第一名:1个名额,机械键盘1台

第二名:2个名额,空气净化器 1台

第三名:5个名额,运动手环 1个

:两大赛题鼓励师排行榜分开进行,按照以上规则分别获得鼓励师特别奖励。

大赛答疑交流群:

  • Flink 垃圾图片分类答疑交流钉钉群号:23129395
  • Flink TPC-DS 性能优化答疑交流钉钉群号:21950145

Tips:大赛微信交流群可加小松鼠微信,小松鼠拉大家进群(Ververica2019),加小松鼠微信请备注垃圾图片分类或性能优化哦

大赛详情:https://tianchi.aliyun.com/markets/tianchi/flink2019

还没报名的同学快上车,了解更多 Apache Flink 极客挑战赛信息~

史上超强阵容,Flink Forward Asia 2019 你报名了吗?

公众号banner.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
10天前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
287 33
The Past, Present and Future of Apache Flink
|
2月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
835 13
Apache Flink 2.0-preview released
|
2月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
89 3
|
2月前
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
168 0
|
3月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
1月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1177 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
156 56
|
5月前
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
865 7
阿里云实时计算Flink在多行业的应用和实践
|
4月前
|
SQL 消息中间件 Kafka
实时计算 Flink版产品使用问题之如何在EMR-Flink的Flink SOL中针对source表单独设置并行度
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
SQL 运维 数据可视化
阿里云实时计算Flink版产品体验测评
阿里云实时计算Flink基于Apache Flink构建,提供一站式实时大数据分析平台,支持端到端亚秒级实时数据分析,适用于实时大屏、实时报表、实时ETL和风控监测等场景,具备高性价比、开发效率、运维管理和企业安全等优势。

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多