实时计算 Flink
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。
速度收藏!看完这份知识图谱,才算搞懂 Flink!
社区整理了这样一份知识图谱,由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。看完这份图谱,才算真的搞懂 Flink!
![](https://ucc.alicdn.com/pic/developer-ecology/d7cab0164c5d44c3ba85108af0d7e5b5.jpeg?x-oss-process=image/resize,h_160,m_lfit)
速度收藏!看完这份知识图谱,才算搞懂 Flink!
社区整理了这样一份知识图谱,由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。看完这份图谱,才算真的搞懂 Flink!
![](https://ucc.alicdn.com/pic/developer-ecology/3eba0fc1014946e48855527db447022c.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!
Apache Flink 社区迎来了激动人心的两位数位版本号,Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化。
![](https://ucc.alicdn.com/pic/developer-ecology/3eba0fc1014946e48855527db447022c.png?x-oss-process=image/resize,h_160,m_lfit)
Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!
Flink 1.10 同时还标志着对 Blink[1] 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。
从开发到生产上线,如何确定集群规划大小?
在 Flink 社区中,最常被问到的问题之一是:在从开发到生产上线的过程中如何确定集群的大小。这个问题的标准答案显然是“视情况而定”,但这并非一个有用的答案。本文概述了一系列的相关问题,通过回答这些问题,或许你能得出一些数字作为指导和参考。
![](https://ucc.alicdn.com/pic/developer-ecology/4902ffe8bb864e1b87b33bacef998978.png?x-oss-process=image/resize,h_160,m_lfit)
从开发到生产上线,如何确定集群规划大小?
在 Flink 社区中,最常被问到的问题之一是:在从开发到生产上线的过程中如何确定集群的大小。这个问题的标准答案显然是“视情况而定”,但这并非一个有用的答案。本文概述了一系列的相关问题,通过回答这些问题,或许你能得出一些数字作为指导和参考。
百万TPS高吞吐、秒级低延迟,阿里搜索离线平台如何实现?
阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢?
![](https://ucc.alicdn.com/pic/developer-ecology/177b7df12e964fa0a4dd399613369a1c.png?x-oss-process=image/resize,h_160,m_lfit)
百万TPS高吞吐、秒级低延迟,阿里搜索离线平台如何实现?
阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢?
![](https://ucc.alicdn.com/pic/developer-ecology/c0458d8cdc63406981c638b72c7f1678.jpg?x-oss-process=image/resize,h_160,m_lfit)
假期充电 | 2019 Flink 社区年度文章合集(电子书免费送)
为了让宝贵的经验传播,方便大家快速上手 Flink,小编将 Apache Flink 基础入门学习资料整理成电子版专刊供大家下载使用。
![](https://ucc.alicdn.com/pic/developer-ecology/d0d5954176de403e9d205831ee987ba1.jpg?x-oss-process=image/resize,h_160,m_lfit)
来!PyFlink 作业的多种部署模式
关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。这些都停留在开发阶段,一旦开发完成,我们就面临激动人心的时刻,那就是将我们精心设计开发的作业进行部署,那么问题来了,你知道怎样部署 PyFlink 的作业吗?
来!PyFlink 作业的多种部署模式
关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。
![](https://ucc.alicdn.com/pic/developer-ecology/4eb357ea359c428ebaa7cdcf224cfd85.jpg?x-oss-process=image/resize,h_160,m_lfit)
最新消息!Cloudera 全球发行版正式集成 Apache Flink
近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。
![](https://ucc.alicdn.com/pic/developer-ecology/8101812ec4fd4b24ae6e96c9b1e21378.jpg?x-oss-process=image/resize,h_160,m_lfit)
最新消息!Cloudera 全球发行版正式集成 Apache Flink
近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。
实至名归!Flink 再度成为 Apache 基金会最活跃的开源项目
2019 年对 Apache 软件基金会(简称 ASF)来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。ASF 的口号,“社区重于代码”(Community Over Code),贯穿于其所做的每一件事,全球有数十亿人受益于价值 200 多亿美元的社区主导的软件,100% 免费提供。
![](https://ucc.alicdn.com/pic/developer-ecology/8ebfa42cedc24b3fb4e5a7c3e1846330.jpg?x-oss-process=image/resize,h_160,m_lfit)
实至名归!Flink 再度成为 Apache 基金会最活跃的开源项目
2019 年对 Apache 软件基金会(简称 ASF)来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。ASF 的口号,“社区重于代码”(Community Over Code),贯穿于其所做的每一件事,全球有数十亿人受益于价值 200 多亿美元的社区主导的软件,100% 免费提供。
Flink Weekly | 每周社区动态更新 - 20200114
本文为 Flink Weekly 的第四期,由 Forward Xu 整理,主要内容包括:Flink 1.10 版本的发布测试,SQL catalog 读取关系数据库 schema 的相关建议以及 Flink Forward 旧金山的演讲邀请。
![](https://ucc.alicdn.com/pic/developer-ecology/c7c6057d64a444bfb771bae87630f3c0.jpg?x-oss-process=image/resize,h_160,m_lfit)
Flink Weekly | 每周社区动态更新 - 20200114
本文为 Flink Weekly 的第四期,由 Forward Xu 整理,主要内容包括:Flink 1.10 版本的发布测试,SQL catalog 读取关系数据库 schema 的相关建议以及 Flink Forward 旧金山的演讲邀请。
小米流式平台架构演进与实践
小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。
基于 Flink 构建 CEP 引擎的挑战和实践
奇安信集团作为一家网络安全公司是如何基于 Flink 构建 CEP 引擎实时检测网络攻击?其中面临的挑战以及宝贵的实践经验有哪些?本文主要内容分为以下四个方面: 1. 背景及现状 2. 技术架构 3. 产品及运维 4. 未来发展与思考
实时计算在贝壳的实践
本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中的应用,通过企业开发的实时计算平台案例的分享帮助用户了解Apache Flink的技术特性与应用场景。
![](https://ucc.alicdn.com/pic/developer-ecology/ee61b4e4242447e99fbb83c53ddeb30c.png?x-oss-process=image/resize,h_160,m_lfit)
实时计算在贝壳的实践
本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中的应用,通过企业开发的实时计算平台案例的分享帮助用户了解Apache Flink的技术特性与应用场景。
阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?
众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法 -- 小文件合并。
![](https://ucc.alicdn.com/pic/developer-ecology/06ef28e02f624836b35767d8a6ff2fdb.png?x-oss-process=image/resize,h_160,m_lfit)
阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?
众所周知 Flink 是当前广泛使用的计算引擎,Flink 使用 checkpoint 机制进行容错处理[1],Flink 的 checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法 -- 小文件合并。
![](https://ucc.alicdn.com/pic/developer-ecology/c52bbd141be34834ae5a2c96640d2845.jpg?x-oss-process=image/resize,h_160,m_lfit)
基于 Flink 构建 CEP 引擎的挑战和实践
奇安信集团作为一家网络安全公司是如何基于 Flink 构建 CEP 引擎实时检测网络攻击?其中面临的挑战以及宝贵的实践经验有哪些?本文主要内容分为以下四个方面: 1. 背景及现状 2. 技术架构 3. 产品及运维 4. 未来发展与思考
![](https://ucc.alicdn.com/pic/developer-ecology/e40571c420ec4a7fa76c317eed30133d.jpg?x-oss-process=image/resize,h_160,m_lfit)
Flink Weekly | 每周社区动态更新 - 20200107
本文为 Flink Weekly 的第三期,由 Tang Yun 整理,主要内容包括:Flink 1.10.0 的发布进展,将 blink planner 设置为 SQL client 默认 planner 的讨论,以及如何支持 SQL client gateway 的 FLIP。
Flink Weekly | 每周社区动态更新
本文为 Flink Weekly 的第三期,由 Tang Yun 整理,主要内容包括:Flink 1.10.0 的发布进展,将 blink planner 设置为 SQL client 默认 planner 的讨论,以及如何支持 SQL client gateway 的 FLIP。
![](https://ucc.alicdn.com/pic/developer-ecology/efab863024e04077bf1cb44696337f15.jpg?x-oss-process=image/resize,h_160,m_lfit)
小米流式平台架构演进与实践
小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。
![](https://ucc.alicdn.com/pic/developer-ecology/cd307fccba9f47f491881284bab47b77.jpg?x-oss-process=image/resize,h_160,m_lfit)
Flink Weekly | 每周社区动态更新 - 2019/12/31
主要内容包括:讨论在 Flink SQL 中支持 JSON functions,新增 Flink 国内社区的活动和相关博客,以及汇总中文邮件中大家遇到的问题。
Flink Weekly | 每周社区动态更新 - 2019/12/31
主要内容包括:讨论在 Flink SQL 中支持 JSON functions,新增 Flink 国内社区的活动和相关博客,以及汇总中文邮件中大家遇到的问题。
![](https://ucc.alicdn.com/pic/developer-ecology/5f6a3fd98cfa439b803f0e84e365b63e.jpg?x-oss-process=image/resize,h_160,m_lfit)
美团点评基于 Flink 的实时数仓平台实践
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。
美团点评基于 Flink 的实时数仓平台实践
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。
![](https://ucc.alicdn.com/pic/developer-ecology/d88105486a8f482395d613efd6b20159.jpg?x-oss-process=image/resize,h_160,m_lfit)
监控指标10K+!携程实时智能检测平台实践
本文将介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet 基本覆盖了携程所有业务线,监控指标的数量达到 10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet 将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于 Flink 实时计算引擎来实现异常的实时预警,提供一站式异常检测解决方案。
携程实时智能检测平台建设实践
rophet基本覆盖了携程所有业务线,监控指标的数量达到10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于Flink实时计算引擎来实现异常的实时预警,提供一站式异常检测解决方案。
![](https://ucc.alicdn.com/pic/developer-ecology/79ae0e0b493f49dcabcd5aab92239d16.jpg?x-oss-process=image/resize,h_160,m_lfit)
年度回顾 | 2019 年的 Apache Flink(文末有福利)
2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 tickets,以及 GitHub 上超过 3 千个 PR,Apache Flink 迎来了快速的发展。
年度回顾 | 2019 年的 Apache Flink(文末有福利)
2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 tickets,以及 GitHub 上超过 3 千个 PR,Apache Flink 迎来了快速的发展。
![](https://ucc.alicdn.com/pic/developer-ecology/0266b569bbca4d3b805f9dc3018f114d.jpg?x-oss-process=image/resize,h_160,m_lfit)
在 Flink 算子中使用多线程如何保证不丢数据?
本人通过分析痛点、同步批量请求优化为异步请求、多线程 Client 模式、Flink 算子内多线程实现以及总结四部分帮助大家理解 Flink 中使用多线程的优化及在 Flink 算子中使用多线程如何保证不丢数据。
![](https://ucc.alicdn.com/pic/developer-ecology/ace1825198264c619d07a24cc9417bfd.jpg?x-oss-process=image/resize,h_160,m_lfit)
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践
友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践
在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。
![](https://ucc.alicdn.com/pic/developer-ecology/bb9485c59c2f4ee38d42c994d11c4c19.jpg?x-oss-process=image/resize,h_160,m_lfit)
Flink Weekly | 每周社区动态更新-12/24
本期的主要内容由 Hequn Cheng 整理,包括:发布 Flink 1.10 和 Flink 1.9.2 的更新,关于将 Flink Docker image 发布集成到 Flink 发布过程中的讨论,PyFlink 后期新功能的讨论以及一些博客文章。
Flink Weekly | 每周社区更新-12/24
本期的主要内容包括:发布 Flink 1.10 和 Flink 1.9.2 的更新,关于将 Flink Docker image 发布集成到 Flink 发布过程中的讨论,PyFlink 后期新功能的讨论以及一些博客文章。
State Processor API:如何读取,写入和修改 Flink 应用程序的状态
Apache Flink 1.9.0引入了状态处理器(`State Processor`)API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点(checkpoint)中的状态。
![](https://ucc.alicdn.com/pic/developer-ecology/7fa0c8d40a1b4e998005efbec516faa1.jpg?x-oss-process=image/resize,h_160,m_lfit)
State Processor API:如何读取,写入和修改 Flink 应用程序的状态
Apache Flink 1.9.0引入了状态处理器(`State Processor`)API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点(checkpoint)中的状态。
![](https://ucc.alicdn.com/pic/developer-ecology/d64b5954851a4d52ac9dac58730aa666.png?x-oss-process=image/resize,h_160,m_lfit)
Flink SQL 如何实现数据流的 Join?
Join 的实现依赖于缓存整个数据集,而 Streaming SQL Join 的对象却是无限的数据流,内存压力和计算效率在长期运行来说都是不可避免的问题。下文将结合 SQL 的发展解析 Flink SQL 是如何解决这些问题并实现两个数据流的 Join。
![](https://ucc.alicdn.com/pic/developer-ecology/a93bd1845178440d86d9f7fc9a2f1dbf.png?x-oss-process=image/resize,h_160,m_lfit)
Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)
如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台。
Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)
如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台。
仅1年GitHub Star数翻倍,Flink 做了什么?
在 Flink Forward Asia 2019 上,阿里巴巴资深技术专家,实时计算负责人王峰 (莫问)总结了 2019 年 Flink 在中国的发展和演进,阿里对 Flink 社区的贡献以及未来 Flink 的最新发展方向。
![](https://ucc.alicdn.com/pic/developer-ecology/233f30ef6abe455fa91317127ffd21b7.jpg?x-oss-process=image/resize,h_160,m_lfit)
仅 1 年 GitHub Star 数翻倍,Flink 做了什么?
在 Flink Forward Asia 2019 上,阿里巴巴资深技术专家,实时计算负责人王峰 (莫问)总结了 2019 年 Flink 在中国的发展和演进,阿里对 Flink 社区的贡献以及未来 Flink 的最新发展方向。
Flink Batch SQL 1.10 实践
1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性能上都有大幅改进,以下我从架构、外部系统集成、实践三个方面进行阐述。
![](https://ucc.alicdn.com/pic/developer-ecology/be91365be64746139c665d6c06b972d6.png?x-oss-process=image/resize,h_160,m_lfit)
Flink Batch SQL 1.10 实践
1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性能上都有大幅改进,以下我从架构、外部系统集成、实践三个方面进行阐述。