企业实践 | 如何更好地使用 Apache Flink 解决数据计算问题?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 业务数据的指数级扩张,数据处理的速度可不能跟不上业务发展的步伐。基于 Flink 的数据平台构建、运用 Flink 解决业务场景中的具体问题等随着 Flink 被更广泛的应用于广告、金融风控、实时 BI、实时数仓、实时推荐等多种业务场景,在生产实践中已有丰富的案例与优秀的经验。

业务数据的指数级扩张,数据处理的速度可不能跟不上业务发展的步伐。基于 Flink 的数据平台构建、运用 Flink 解决业务场景中的具体问题等随着 Flink 被更广泛的应用于广告、金融风控、实时 BI、实时数仓、实时推荐等多种业务场景,在生产实践中已有丰富的案例与优秀的经验。

Flink Forward Asia 倒计时 28 天,企业实践专题大会邀请了字节跳动、滴滴出行、快手、Bilibili、网易、爱奇艺、中国农业银行、奇虎360、贝壳找房、奇安信等不同行业一线技术专家分享 Apache Flink 与大数据基础平台建设进展和实践,详细解读大数据相关技术在各行业的应用与落地,包括应用场景、业务痛点、面临挑战、如何破局等宝贵实践经验。

点击下方链接可提前了解更多有趣议程:
https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f2795503PjxQ

部分精彩议题

《Apache Flink 在字节跳动的实践与优化》

  • Speaker:张光辉@字节跳动

主要介绍字节跳动最近在 Flink 上做的相关实践与优化工作,主要分 6 个部分来介绍,分别是:

1.Flink SQL 的应用和扩展;
2.Flink 负载均衡调度,分两个阶段,分别在 Yarn 分配 Container 阶段,在 Flink 内部 TaskScheduler 阶段;
3.Flink on docker on Yarn 解决基础环境隔离问题;
4.Flink CEP 多 Pattern 匹配和动态加载,为安全和风控团队提供支持;
5.提升 Checkpoint/Savepoint 易用性;
6.Flink BugFix & 优化:Flink Netty 网路连接单向断开导致 hang 住;异步申请启动 Container,加快提交速度;Flink JVM 参数配置优化;Flink Client 端和 TM端类加载机制不同等。

·

《Apache Flink 在中国农业银行的探索和实践》

  • Speaker:侯鑫磊@中国农业银行

Apache Flink 作为新一代批流计算引擎,在金融科技应用越来越广泛,本次分享主要介绍农业银行以 Apache Flink 作为混合计算引擎,在反欺诈、系统异常检测、实时数据统计等应用中进行的探索和实践。内容包括:

1.Flink 在农业银行的使用场景
2.实践介绍,Flink 的作用和性能
3.Flink 应用效果
4.未来展望

·

《B 站基于 Flink 的平台化探索与实践》

  • Speaker:郑志升@Bilibili

B 站早期的实时计算需求,多数是各业务线根据个性化定制的作坊形式,而随着需求量加大以及作坊式效率的低下,2017 年底 Saber 大数据实时计算平台诞生,建设近两年主要解决了基于 Flink 和 Spark 的实时 SQL IDE 及少量应用层 DAG IDE,应用于监控、实时 BI 分析及实时报表等场景。

而在 2018 年中切入了机器学习的实时工程领域,并提供给 AI、搜索及广告等各个 BU,用于实时模型训练的多流会话窗口 Join、维表数据 Join 的场景,以及大窗口下实时特征工程的探索与支持。更多内容详见本次分享。目录大纲四部分:

1.背景与现状
2.实时计算平台的演进
3.结合 AI 的工程探索与实践
4.挑战与未来

·

《基于 Flink 构建 CEP 引擎的挑战和实践》

  • Speaker:韩鹏@奇安信

在大数据领域,根据业务需求和特点来做技术决策已经成为技术选型和开发的基本原则,本演讲主要介绍奇安信集团如何根据大数据安全分析的业务特点基于 Flink 来设计和实现一个独立的 CEP(ComplexEvent Process)引擎,这个引擎和 Flink-CEP 的不同点,以及在研发过程中遇到和解决的技术问题。

企业实践专题完整议程

11月28日下午,企业实践专题分享

_

11月29日上午,企业实践专题分享

_2_

深度培训,做技术实力派

大会组委会还为使用 Flink、希望深度学习的开发者们精心准备了培训课程。届时,来自阿里巴巴和 Ververica 的 Flink 专家们将带领开发者开展为期一天半的深度学习。

  • Apache Flink PMC 带队,超豪华阵容,阿里巴巴及 Flink 创始团队资深技术专家担任培训讲师,为开发者培训课程制定全面学习体系。
  • 课程能够满足不同学习需求,无论是入门还是进阶,开发者可根据自身基础选择课程内容,实现技术与应用能力上的积累与提升。

课程主要大纲如下:

中阶一:Apache Flink 开发人员培训

本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。培训将重点介绍分布式数据流、事件时间和状态等核心概念。练习将使您有机会了解以上概念在 API 中是如何被体现的,并了解如何将这些概念组合用以解决实际问题。

  • 介绍流计算和 Apache Flink
  • DataStream API 的基础
  • 为 Flink 开发做准备(包括练习)
  • 有状态的流处理(包括练习)
  • 时间、定时器和 ProcessFunction(包括练习)
  • 连接多个流(包括练习)
  • 测试(包括练习)

说明:不需要 Apache Flink 的相关知识。

中阶二:Apache Flink 运维培训

本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。

  • 介绍流计算和 Apache Flink
  • 数据中心里的 Flink
  • 分布式架构介绍
  • 容器化部署(包括实际操作)
  • 状态后端和容错(包括实际操作)
  • 升级和状态迁移(包括实际操作)
  • 指标(包括实践)
  • 容量规划

说明:不需要对 Apache Flink 有先验知识。

中阶三:SQL 开发人员培训

Apache Flink 支持 SQL 作为流处理和批处理的统一 API。SQL 可以用于各种各样的场景,并且相比使用 Flink 的底层 API,SQL 将更容易构建和维护。在本次培训中,您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。

  • 介绍 SQL on Flink
  • 使用 SQL 查询动态表
  • 连接动态表
  • 模式匹配与 match_recognition
  • 生态系统&写外部表

说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。

高阶:Apache Flink 调优和问题排查

在过去的几年中,我们与许多 Flink 用户合作沟通期间了解到许多将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战。在此次培训中,我们将集中精力介绍这些挑战,并且帮助大家一起消除它。我们将提供一个有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。在实践课程的间隙中,参与者将有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。同时,我们也将归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。

  • 时间和水印
  • 状态处理和状态后端
  • Flink 的容错机制
  • 检查点和保存点
  • DataStream API 和 ProcessFunction。

培训系列课程为精品小班教学,数量有限,预约满额将关闭入口,有相关培训需求的同学可尽早预约。详细说明:

  • 参加培训请选择购买 VIP 套票。中阶培训购买 VIP 套票 1,高阶培训购买 VIP 套票 2。
  • VIP 套票 1 可参与中阶所有课程,VIP 套票 2 可参与包括高阶、中阶培训在内的所有课程。

点击「大会详情」可了解更多培训课程与 Flink Forward Asia 2019 大会信息,限量席位,越早预约越能抓住时代先机~

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
141 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1天前
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
128 2
探索Flink动态CEP:杭州银行的实战案例
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
157 56
|
26天前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
15天前
|
流计算 开发者
【开发者评测】实时计算Flink场景实践和核心功能体验测评获奖名单公布!
【开发者评测】实时计算Flink场景实践和核心功能体验测评获奖名单公布!
|
1月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
1月前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
72 1
|
1月前
|
数据采集 运维 搜索推荐
实时计算Flink场景实践
在数字化时代,实时数据处理愈发重要。本文分享了作者使用阿里云实时计算Flink版和流式数据湖仓Paimon的体验,展示了其在电商场景中的应用,包括数据抽取、清洗、关联和聚合,突出了系统的高效、稳定和低延迟特点。
61 0
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
335 7

推荐镜像

更多