权威解读:阿里云实时计算究竟对Apache Flink™️做了哪些‘改造’?

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
简介: 基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

关于实时计算

image.png

实时计算LOGO

实时计算(Alibaba Cloud Realtime Compute,原阿里云流计算)是一套基于Apache Flink™️构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等多种场景。实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域,助力中国企业向实时化、智能化大数据计算升级转型。

历史和发展

image.png

基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Apache Flink™️搭建的实时计算平台。同时Apache Flink™️计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。阿里集团内,淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,实时计算今年4月份正式商业化以来,半年时间,在集团外积累用户也已经超过2000家。

解决痛点

640.gif

双十一实时数据大屏(Demo)

阿里云实时计算可以提供FlinkSQL协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,实时计算提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用FlinkSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的实时计算更擅长于做流式数据分析、统计、处理。主要解决了用户的三大痛点:

1.流式数据的及时性

在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而实时计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2.一站式的流式数据处理

不同于开源或者自建的流式处理服务,阿里云实时算是完全托管的流式计算引擎,可针对流数据运行查询,无需预置或管理任何基础设施,用户可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据开发、数据运维、监控预警等服务,方便用户最小成本试用和迁移流式计算产品。

3.SQL化的流式分析

支持标准SQL(产品名称为:FlinkSQL),提供内建的字符串处理、时间、统计等各类计算函数,替换业界低效且复杂的Flink开发,让更多的BI人员、运营人员通过简单的FlinkSQL可以完成实时化大数据分析和处理,让实时大数据处理普适化、平民化。

典型场景

image.png

实时计算典型场景应用

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

大体分为四种典型场景:

互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;

金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;

物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;

电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

客户案例

image.png

实时计算客户列举

经过两年的发展,实时计算在集团内,淘宝、天猫、蚂蚁金服、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术。今年以来,众安保险、全民TV、千寻、新华智云等集团外部客户也上线了诸多实时计算的典型场景和应用。

关于‘独享模式’

image.png

实时计算架构图

实时计算今年4月份商业化以来,一直以‘共享模式’的形式对外输出,在批处理领域,SQL 已经经历了几十年的考验,是公认的经典。但另一方面也对用户造成两大困扰:

1.仅使用 SQL难以描述自己的业务逻辑;

2.将某些已有的存在于代码中的业务逻辑翻译成SQL,烦不胜烦。

因此,实时计算独享模式应运而生。独享模式,是实时计算在原有共享模式基础上的补充。用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立。具备UDX开放、丰富的硬件、用户间的隔离等特性。

权威解读

实时计算团队将于11月14日举办实时计算产品线上发布会,届时重磅发布实时计算独享模式,资深技术专家和高级产品专家将共同分享阿里眼中下一代大数据计算引擎大前世今生。

演讲主题:《阿里巴巴对Apache Flink™️的改进和贡献》

image.png

王峰(莫问)
阿里巴巴资深技术专家

2006年毕业后即加入阿里集团,长期从事大数据技术研发工作,目前在计算平台事业部担任资深技术专家,负责实时计算引擎团队,旨在打造世界一流的实时计算平台。对Apache Flink™️进行了大量架构改进,功能完善和性能提升,打造出了阿里新一代实时计算引擎,并统一服务阿里集团所有实时计算业务和实时计算云产品。

演讲主题:《阿里云实时计算:下一代大数据计算引擎》

image.png

陈守元(巴真)
阿里巴巴高级产品专家

阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品的规划与设计,致力于推动Apache Flink™️成为下一代大数据处理标准。

此外,针对此次发布会,我们准备50件礼品给参与互动和问答的同学,欢迎对实时计算/Apache Flink/大数据处理 感兴趣的爱好者们届时观看活动直播,与我们的嘉宾进行线上互动!

image.png

注:Apache Flink™️ 是Apache的商标,受版权保护

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
11天前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
3月前
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
731 7
阿里云实时计算Flink在多行业的应用和实践
|
13天前
|
存储 运维 监控
阿里云实时计算Flink版的评测
阿里云实时计算Flink版的评测
44 15
|
12天前
|
运维 分布式计算 监控
评测报告:阿里云实时计算Flink版
本评测主要针对阿里云实时计算Flink版在用户行为分析中的应用。作为一名数据分析师,我利用该服务处理了大量日志数据,包括用户点击流和登录行为。Flink的强大实时处理能力让我能够迅速洞察用户行为变化,及时调整营销策略。此外,其卓越的性能和稳定性显著降低了运维负担,提升了项目效率。产品文档详尽且易于理解,但建议增加故障排查示例。
|
11天前
|
机器学习/深度学习 运维 监控
阿里云实时计算Flink版体验评测
阿里云实时计算Flink版提供了完善的产品内引导和丰富文档,使初学者也能快速上手。产品界面引导清晰,内置模板简化了流处理任务。官方文档全面,涵盖配置、开发、调优等内容。此外,该产品在数据开发和运维方面表现优秀,支持灵活的作业开发和自动化运维。未来可增强复杂事件处理、实时可视化展示及机器学习支持,进一步提升用户体验。作为阿里云大数据体系的一部分,它能与DataWorks、MaxCompute等产品无缝联动,构建完整的实时数据处理平台。
|
2月前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
2月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
237 3
|
3月前
|
搜索推荐 数据处理 调度
阿里云实时计算:引领企业走向实时智能决策之路
数据整合:整合交通摄像头、GPS定位等多种数据源。 实时路况分析:分析实时路况,预测交通拥堵。 智能调度:基于分析结果进行车辆调度和路线规划。
|
3月前
|
SQL 数据处理 Apache
Apache Flink SQL:实时计算的核心引擎
Apache Flink SQL 的一些核心功能,并探讨了其在实时计算领域的应用。随着 Flink 社区的不断发展和完善,Flink SQL 将变得越来越强大,为实时数据分析带来更多的可能性。
|
3月前
|
Prometheus Cloud Native 关系型数据库
实时计算 Flink版操作报错合集之实时计算 Flink版操作报错合集之当从保存点恢复并添加新的表时,出现了org.apache.flink.util.FlinkRuntimeException异常,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

推荐镜像

更多
下一篇
无影云桌面