权威解读:阿里云实时计算究竟对Apache Flink™️做了哪些‘改造’?

简介: 基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

关于实时计算

image.png

实时计算LOGO

实时计算(Alibaba Cloud Realtime Compute,原阿里云流计算)是一套基于Apache Flink™️构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等多种场景。实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域,助力中国企业向实时化、智能化大数据计算升级转型。

历史和发展

image.png

基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Apache Flink™️搭建的实时计算平台。同时Apache Flink™️计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。阿里集团内,淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,实时计算今年4月份正式商业化以来,半年时间,在集团外积累用户也已经超过2000家。

解决痛点

640.gif

双十一实时数据大屏(Demo)

阿里云实时计算可以提供FlinkSQL协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,实时计算提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用FlinkSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的实时计算更擅长于做流式数据分析、统计、处理。主要解决了用户的三大痛点:

1.流式数据的及时性

在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而实时计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2.一站式的流式数据处理

不同于开源或者自建的流式处理服务,阿里云实时算是完全托管的流式计算引擎,可针对流数据运行查询,无需预置或管理任何基础设施,用户可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据开发、数据运维、监控预警等服务,方便用户最小成本试用和迁移流式计算产品。

3.SQL化的流式分析

支持标准SQL(产品名称为:FlinkSQL),提供内建的字符串处理、时间、统计等各类计算函数,替换业界低效且复杂的Flink开发,让更多的BI人员、运营人员通过简单的FlinkSQL可以完成实时化大数据分析和处理,让实时大数据处理普适化、平民化。

典型场景

image.png

实时计算典型场景应用

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

大体分为四种典型场景:

互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;

金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;

物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;

电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

客户案例

image.png

实时计算客户列举

经过两年的发展,实时计算在集团内,淘宝、天猫、蚂蚁金服、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术。今年以来,众安保险、全民TV、千寻、新华智云等集团外部客户也上线了诸多实时计算的典型场景和应用。

关于‘独享模式’

image.png

实时计算架构图

实时计算今年4月份商业化以来,一直以‘共享模式’的形式对外输出,在批处理领域,SQL 已经经历了几十年的考验,是公认的经典。但另一方面也对用户造成两大困扰:

1.仅使用 SQL难以描述自己的业务逻辑;

2.将某些已有的存在于代码中的业务逻辑翻译成SQL,烦不胜烦。

因此,实时计算独享模式应运而生。独享模式,是实时计算在原有共享模式基础上的补充。用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立。具备UDX开放、丰富的硬件、用户间的隔离等特性。

权威解读

实时计算团队将于11月14日举办实时计算产品线上发布会,届时重磅发布实时计算独享模式,资深技术专家和高级产品专家将共同分享阿里眼中下一代大数据计算引擎大前世今生。

演讲主题:《阿里巴巴对Apache Flink™️的改进和贡献》

image.png

王峰(莫问)
阿里巴巴资深技术专家

2006年毕业后即加入阿里集团,长期从事大数据技术研发工作,目前在计算平台事业部担任资深技术专家,负责实时计算引擎团队,旨在打造世界一流的实时计算平台。对Apache Flink™️进行了大量架构改进,功能完善和性能提升,打造出了阿里新一代实时计算引擎,并统一服务阿里集团所有实时计算业务和实时计算云产品。

演讲主题:《阿里云实时计算:下一代大数据计算引擎》

image.png

陈守元(巴真)
阿里巴巴高级产品专家

阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品的规划与设计,致力于推动Apache Flink™️成为下一代大数据处理标准。

此外,针对此次发布会,我们准备50件礼品给参与互动和问答的同学,欢迎对实时计算/Apache Flink/大数据处理 感兴趣的爱好者们届时观看活动直播,与我们的嘉宾进行线上互动!

image.png

注:Apache Flink™️ 是Apache的商标,受版权保护

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
存储 NoSQL MongoDB
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference 的研究。
46857 2
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
|
1月前
|
存储 测试技术 数据处理
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
|
1月前
|
存储 SQL 分布式数据库
OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案
OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案
|
1月前
|
消息中间件 SQL Java
阿里云Flink-自定义kafka sink partitioner实践及相关踩坑记录
阿里云Flink-自定义kafka sink partitioner实践及相关踩坑记录
|
1月前
|
供应链 流计算
飞鹤基于阿里云实时计算Flink构建数字化运营管理体系
飞鹤借助实时计算Flink等产品,构建数字化运营管理体系,建立实时预警机制,提前窥探风险,为供应链等业务决策提效。
581 0
|
23小时前
|
弹性计算 监控 安全
阿里云ECS云服务器推荐配置,选择流程
阿里云ECS云服务器推荐配置,选择流程,阿里云服务器配置选择方法包括云服务器类型、CPU内存、操作系统、公网带宽、系统盘存储、网络带宽选择、安全配置、监控等,阿里云百科分享阿里云服务器配置选择方法,选择适合自己的云服务器配置
|
23小时前
|
弹性计算 监控 安全
阿里云ECS云服务器配置怎么选?
阿里云ECS云服务器配置怎么选?包括云服务器类型、CPU内存、操作系统、公网带宽、系统盘存储、网络带宽选择、安全配置、监控等,阿里云百科分享阿里云服务器配置选择方法,选择适合自己的云服务器配置!
|
1天前
|
弹性计算
2024阿里云幻兽帕鲁专用服务器价格表4核16G和8核32G配置
阿里云幻兽帕鲁服务器26元/月起,配置为4核16G10M带宽,8核32G10M带宽价格是90元一个月,Palworld服务器配置可选4核16G和8核32G
|
1天前
|
弹性计算
阿里云幻兽帕鲁服务器收费价格多少钱一个月,26元!
阿里云幻兽帕鲁服务器26元/月起,配置为4核16G10M带宽,8核32G10M带宽价格是90元一个月,Palworld服务器配置可选4核16G和8核32G,公网带宽可选10M
|
1天前
|
弹性计算
阿里云Palworld幻兽帕鲁服务器收费价格表
阿里云Palworld幻兽帕鲁服务器收费价格表,阿里云幻兽帕鲁服务器26元/月起,配置为4核16G10M带宽,8核32G10M带宽价格是90元一个月,Palworld服务器配置可选4核16G和8核32G

热门文章

最新文章

相关产品

  • 智能开放搜索 OpenSearch
  • 推荐镜像

    更多