最新消息!Cloudera 全球发行版正式集成 Apache Flink

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。

翻译 | 邱从贤(山智)

摘要:近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。

本文对 Cloudera 官方宣布支持 Apache Flink 的博客进行了翻译,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。

twitter.jpg

(Arun 与 Stephan 的 Twitter 互动)

▼ 以下为 Cloudera 官方博客的原文翻译 ▼

我们再也无法抑制兴奋!在过去的几个月中,Cloudera 的动态数据工程团队一直在努力提供 Cloudera DataFlow(CDF)中引人注目的产品。Cloudera Streaming Analytics(CSA)的 GA 版提供了对 Apache Flink 的支持,从而增强了整个动态数据平台的流处理和分析能力。

由 Apache Flink 支持的 Cloudera Streaming Analytics 是 Cloudera DataFlow(CDF)平台内的一项新产品,可提供 IoT 级数据流和复杂事件的实时状态处理。Cloudera DataFlow(如下图所示)是一个全面的边缘计算到云实时流数据平台。作为 CDF 的关键支柱之一,流处理和分析对于处理来自各种数据源的数百万个数据点和复杂事件非常重要。多年来,我们已经支持了多个流引擎,但是 Flink 的加入使 CDF 成为了一个极具吸引力的平台,可以大规模处理大量流数据。

CDH.jpg

Cloudera Streaming Analytics 涵盖了 Apache Flink 的核心流功能:

  • 在 YARN 上支持 Flink 1.9.1
  • 支持在 Cloudera 托管集群上安装 Flink
  • 支持完全安全(启用 TLS 和 Kerberos)的 Flink 集群
  • 从 Kafka 或 HDFS 读取数据源
  • 使用 Java DataStream 和 ProcessFunction API 的 pipeline 定义
  • 恰好一次的语义
  • 基于事件时间的语义
  • 数据接收器写入 Kafka,HDFS 和 HBase
  • 与 Cloudera Schema Registry 集成以进行模式管理以及流事件的序列化/反序列化

这些功能可实现复杂的端到端流传输 pipeline。我们计划在即将发布的 CSA 中提供更多激动人心的功能。

平台集成,可任意扩展 Flink

CSA 将在最近发布的 Cloudera 数据平台(CDP)中心提供服务。利用 CDP 的灵活性和管理选项,可以轻松地对 Flink 进行任意扩展。有了平台集成,Cloudera Manager 可以用于安装,监视和管理 Flink 集群。集中式日志搜索还可以聚合 Flink 应用程序日志,以便于管理和调试。

最重要的是,可以使用指标报告器将 Flink 应用程序指标发送到 Apache Kafka 中。CDF 平台上的指标可以通过 Streams Messaging Manager 将 Flink 的指标收集到 Kafka 中,并以可视化的形式对它们进行分析。

为什么选择 Flink?

Apache Flink 是一个分布式,可扩展的数据分析处理引擎,可以非常轻松地处理数百万级的数据或复杂事件,并提供实时预测功能;为数据流上的大规模计算提供通信,容错和数据分发;可以处理生成的实时数据以及存储在文件系统中的数据。

在过去的几年中,Apache Flink 在全球范围内被广泛应用:

  • 电信网络监控:使用复杂的窗口逻辑,基于网络中的流数据,通过预先计算有关停机的响应和修复所需的 ETA 来处理客户投诉
  • 内容推荐引擎:在用户加载网页时向其提供推荐和搜索结果的视频流服务,需要复杂的逻辑,同时每天要主动处理数十亿个事件
  • 搜索优化:搜索引擎实时优化搜索排名
  • 点击流分析:高流量电子商务网站基于实时点击流数据收集并提供最佳的客户体验
  • 应用程序监视:大型企业评估了数千个可定制的警报规则,这些警报规则涉及指标和日志流并检测异常
  • 欺诈检测:金融组织从各种来源的数百万实时财务数据流中检测欺诈模式
  • 游戏分析:要了解游戏平台上数百万每日用户的状态并向业务团队提供分析,需要以极高的规模处理大量数据

尽管 Cloudera 提供了流处理引擎的几种选择:Storm,Spark Structured Streaming 和 Kafka Stream,但将 Flink 添加到 CDF 的意义十分重大。Storm 在市场和开源社区中逐渐失宠,用户正在寻找更好的选择。而 Apache Flink 则是这批用户的最佳选择。Kafka Streams 和 Spark Structured Streaming 则围绕他们自己的用户场景提供了相关的流处理和分析能力。但是,Apache Flink 天然支持流计算(而不是批处理),并且可以大规模处理大量数据流,提供方便的状态支持,恰好一次的语义,原生支持的容错/恢复能力,以及先进的 Window 语义。这使其成为更广泛的流处理引擎的默认选择。

在 2019 年 10 月于柏林举行的 Flink Forward 活动上,Cloudera 的工程主管 Marton Balassi 和 Field CTO Andrew Psaltis 在大会上宣布,Cloudera 承诺将通过 CSA 产品不断给 Apache Flink 社区做出贡献。

相信 Cloudera 对 Apache Flink 的集成将会为社区带来更多创新、为企业及开发者提供更便捷的操作与更友好的使用体验。点击「阅读原文」可查看原版博客~

原文博客:https://blog.cloudera.com/announcing-support-for-apache-flink-with-the-ga-of-cloudera-streaming-analytics/

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
1月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
287 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
261 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
3月前
|
SQL 人工智能 数据挖掘
Apache Flink:从实时数据分析到实时AI
Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。
462 9
Apache Flink:从实时数据分析到实时AI
|
3月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
399 0
|
2月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1031 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
3月前
|
存储 人工智能 数据处理
对话王峰:Apache Flink 在 AI 时代的“剑锋”所向
Flink 2.0 架构升级实现存算分离,迈向彻底云原生化,支持更大规模状态管理、提升资源效率、增强容灾能力。通过流批一体与 AI 场景融合,推动实时计算向智能化演进。生态项目如 Paimon、Fluss 和 Flink CDC 构建湖流一体架构,实现分钟级时效性与低成本平衡。未来,Flink 将深化 AI Agents 框架,引领事件驱动的智能数据处理新方向。
375 6
|
3月前
|
消息中间件 存储 Kafka
Apache Flink错误处理实战手册:2年生产环境调试经验总结
本文由 Ververica 客户成功经理 Naci Simsek 撰写,基于其在多个行业 Flink 项目中的实战经验,总结了 Apache Flink 生产环境中常见的三大典型问题及其解决方案。内容涵盖 Kafka 连接器迁移导致的状态管理问题、任务槽负载不均问题以及 Kryo 序列化引发的性能陷阱,旨在帮助企业开发者避免常见误区,提升实时流处理系统的稳定性与性能。
327 0
Apache Flink错误处理实战手册:2年生产环境调试经验总结
|
8月前
|
SQL 存储 人工智能
Apache Flink 2.0.0: 实时数据处理的新纪元
Apache Flink 2.0.0 正式发布!这是自 Flink 1.0 发布九年以来的首次重大更新,凝聚了社区两年的努力。此版本引入分离式状态管理、物化表、流批统一等创新功能,优化云原生环境下的资源利用与性能表现,并强化了对人工智能工作流的支持。同时,Flink 2.0 对 API 和配置进行了全面清理,移除了过时组件,为未来的发展奠定了坚实基础。感谢 165 位贡献者的辛勤付出,共同推动实时计算进入新纪元!
995 1
Apache Flink 2.0.0: 实时数据处理的新纪元
|
8月前
|
存储 大数据 数据处理
您有一份 Apache Flink 社区年度报告请查收~
您有一份 Apache Flink 社区年度报告请查收~
140 0

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多