开源大数据生态下的 Flink 应用实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 11 月 28-30 日,Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向,并展现相关技术在一线生产场景的优秀实践。

过去十年,面向整个数字时代的关键技术接踵而至,从被人们接受,到开始步入应用。大数据与计算作为时代的关键词已被广泛认知,算力的重要性日渐凸显并发展成为企业新的增长点。Apache Flink(以下简称 Flink)以其快速、准确的算力备受关注,如何将 Flink 更好的与大数据生态技术相结合,充分挖掘数据的潜力,真正发挥数据的价值,是大多数企业面临的难题。

11 月 28-30 日,Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向,并展现相关技术在一线生产场景的优秀实践。

点击可了解大会详情,购买参会门票

部分精彩议题概览

Apache Flink and the Apache Way

Fabian Hueske
Apache Flink PMC,Ververica Co-founder,
Software Engineer

Apache Flink is a project of the Apache Software Foundation (ASF). The ASF is the world's largest open source foundation and the home of more than 350 individual projects and initiatives.

Every ASF project is independently governed and managed by its own community but follows the principles of the ASF, the so-called Apache Way. Knowing the Apache Way is important to fully understand how the community of an ASF project works.

In this talk, I'll briefly explain the Apache Way and how ASF projects organize themselves. I'll take a look back at how the Apache Flink community started and its journey to where it is today.

Finally, I'll give you some guidance and advice that will help you to start contributing to Apache Flink and maybe become a committer at some point in the future.

Optimize Apache Flink on Kubernetes with YuniKorn Scheduler

杨巍威,Cloudera资深软件工程师
杨弢,阿里巴巴技术专家

将 Flink 运行在 K8s 很简单,但是当我们尝试在 K8s 集群上运行大规模 Flink 的任务,并对多租户环境和 SLA 有严苛要求时,各种问题开始显现出来。尤其是在调度层面,我们发现 Flink 的作业调度变慢,并且资源的分配变得混乱且毫无公平性,这样往往会导致作业饿死,或者资源浪费。于是我们开始寻求利用 YuniKorn 来解决在 K8s 上的调度问题。

YuniKorn 是一个开源的,轻量级,通用的资源调度器,可以很容易的适配到 K8s。相比原生的 K8s 调度器,YuniKorn 提供了更加丰富的调度特性,比如层级队列、资源公平性保证、强占以及更好的性能,更加适合大规模多租户、长运行以及批处理作业并存的场景下使用。YuniKorn 的调度会考量应用,用户以及队列等各个维度的资源使用情况,提供基于公平性原则的弹性容量配置。在这个议题中,我们将主要从如何通过 YuniKorn 来优化 Flink 在 K8s 上的运行,包括性能、多租户、资源公平性等方面的与大家进行探讨。

趣头条基于 Flink+ClickHouse 构建实时数据分析平台

王金海,趣头条数据平台负责人

趣头条一直致力于使用大数据分析指导业务发展。目前在实时化领域主要使用 Flink+ClickHouse 解决方案,覆盖场景包括实时数据报表、Adhoc 即时查询、事件分析、漏斗分析、留存分析等精细化运营策略,整体响应 80% 在 1 秒内完成,大大提升了用户实时取数体验,推动业务更快迭代发展。本次分享主要内容:

  1. 业务场景与现状分析
  2. Flink to Hive 的小时级场景
  3. Flink to ClickHouse 的秒级场景
  4. 未来规划

基于 Apache Flink 的边缘流式计算

袁尤军,百度云资深研发工程师
黄家天,百度云物联网部实时计算高级研发工程师

随着 5G 和 IoT 技术的发展,计算将从现在的云端蔓延到更多其他的地方,其中一个典型的场景就是边缘计算。与云端强大的计算集群相比,这些场景设备的计算能力非常受限。Apache Flink 作为新一代流式计算引擎,已经广泛应用在诸多顶级互联网公司的云上。但如何在资源极度受限的边缘设备上运行流式计算引擎,尚无成功案例可循。

我们相信 Apache Flink 不应该仅仅运行在云端,而应该运行在任何需要设备上。本次演讲,我们将分享百度智能云在边缘设备上运行流式作业的一些探索,介绍如何将作业的内存消耗降低到 10M 以内,以及如何实现作业对运行环境的零依赖。会上将重点介绍百度基于 Flink 自研的边缘流式计算框架 Creek,重点内容包括:

  1. 介绍流式计算在边缘设备的意义和挑战
  2. 介绍 Creek 的技术方案
  3. 展示 Creek 的性能指标
  4. 现场演示 Creek 作业的构建和运行

Apache Flink 与 Apache Hive 的集成

李锐,Apache Hive PMC,Apache Flink Contributor,阿里巴巴技术专家
王刚,阿里巴巴高级开发工程师

在大数据领域,Hive 已经成为数据仓库事实上的标准。为了丰富 Flink 的生态,从 1.9.0 版本开始,我们提供了 Flink 与 Hive 集成的能力,让用户可以通过 Flink 来读写 Hive 中的表。在 1.9.0 发布之后,我们进一步完善了 Flink-Hive 集成的功能,包括支持更全面的数据类型、更好地支持 DDL 以及 Function 等。

在新版本中,我们可以支持更多的应用场景,并提供更好的易用性。本次演讲将介绍 Flink-Hive 集成的设计架构、项目进展以及后续版本中的新功能。最后,我们还将演示如何使用 Flink 与 Hive 进行交互。

开源大数据生态专场完整议程

除上述议题外,开源大数据生态专场还有来自戴尔科技集团、英特尔、Stream Native 等重量级嘉宾以及 Apache Member、Apache Flink PMC、Apache Calcite Committer 等带来的更加精彩的分享。完整议程如下:

111

(11 月 28 日下午,专场议程)

_2_

(11 月 29 日上午,专场议程)

深度培训,实现技术与应用能力的积累提升

11 月 11-14 日,Flink Forward Asia 培训课程门票买一赠一,限时 3 天!点击阅读原文预约培训课程,然后加微信(ID:candy1764)提供共同参加培训的小伙伴名单,活动时间截止 11 月 14 日中午 12:00,数量有限,赠完即止,对培训心动的同学赶紧下手啦!

Apache Flink PMC 带队,超豪华阵容,阿里巴巴及 Flink 创始团队资深技术专家担任培训讲师,为开发者培训课程制定全面学习体系。

课程能够满足不同学习需求,无论是入门还是进阶,开发者可根据自身基础选择课程内容,实现技术与应用能力上的积累与提升。

课程主要大纲如下:

  • 中阶一:Apache Flink 开发人员培训

Tips:本课程为纯英文授课,同时配有2位中文技术专家支持解答问题。

本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。培训将重点介绍分布式数据流、事件时间和状态等核心概念。练习将使您有机会了解以上概念在 API 中是如何被体现的,并了解如何将这些概念组合用以解决实际问题。

  • 介绍流计算和 Apache Flink
  • DataStream API 的基础
  • 为 Flink 开发做准备(包括练习)
  • 有状态的流处理(包括练习)
  • 时间、定时器和 ProcessFunction(包括练习)
  • 连接多个流(包括练习)
  • 测试(包括练习)

说明:不需要 Apache Flink 的相关知识。

  • 中阶二:Apache Flink 运维培训

本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。

  • 介绍流计算和 Apache Flink
  • 数据中心里的 Flink
  • 分布式架构介绍
  • 容器化部署(包括实际操作)
  • 状态后端和容错(包括实际操作)
  • 升级和状态迁移(包括实际操作)
  • 指标(包括实践)
  • 容量规划

说明:不需要对 Apache Flink 有先验知识。

  • 中阶三:SQL 开发人员培训

Apache Flink 支持 SQL 作为流处理和批处理的统一 API。SQL 可以用于各种各样的场景,并且相比使用 Flink 的底层 API,SQL 将更容易构建和维护。在本次培训中,您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。

  • 介绍 SQL on Flink
  • 使用 SQL 查询动态表
  • 连接动态表
  • 模式匹配与 match_recognition
  • 生态系统&写外部表

说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。

  • 高阶:Apache Flink 调优和问题排查

在过去的几年中,我们与许多 Flink 用户合作沟通期间了解到许多将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战。在此次培训中,我们将集中精力介绍这些挑战,并且帮助大家一起消除它。我们将提供一个有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。在实践课程的间隙中,参与者将有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。同时,我们也将归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。

  • 时间和水印
  • 状态处理和状态后端
  • Flink 的容错机制
  • 检查点和保存点
  • DataStream API 和 ProcessFunction。

培训系列课程为精品小班教学,数量有限,预约满额将关闭入口,有相关培训需求的同学可尽早预约。详细说明:

  • 参加培训请选择购买 VIP 套票。中阶培训购买 VIP 套票 1,高阶培训购买 VIP 套票 2。
  • VIP 套票 1 可参与中阶所有课程,VIP 套票 2 可参与包括高阶、中阶培训在内的所有课程。

如果你也好奇 Flink 未来的主要探索方向,如何利用 Flink 将大数据、算力推到极致,Flink 有哪些新场景、新规划以及最佳实践等话题,来现场吧!相信这群来自一线的技术专家们,一定会刷新你对 Apache Flink 的认知。

点击「大会详情」可了解更多培训课程与 Flink Forward Asia 2019 大会议程~

▼ 关注 Ververica,Flink 爱你 ▼

_

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
3月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
358 1
|
2月前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
2月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
165 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
3月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
200 1
|
13天前
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
306 2
探索Flink动态CEP:杭州银行的实战案例
zdl
|
2月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
171 56
|
27天前
|
流计算 开发者
【开发者评测】实时计算Flink场景实践和核心功能体验测评获奖名单公布!
【开发者评测】实时计算Flink场景实践和核心功能体验测评获奖名单公布!
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
2月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用

相关产品

  • 实时计算 Flink版