权威解读:阿里云实时计算究竟对Apache Flink™️做了哪些‘改造’?-阿里云开发者社区

开发者社区> 阿里巴巴搜索推荐> 正文

权威解读:阿里云实时计算究竟对Apache Flink™️做了哪些‘改造’?

简介: 基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

关于实时计算

image.png

实时计算LOGO

实时计算(Alibaba Cloud Realtime Compute,原阿里云流计算)是一套基于Apache Flink™️构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等多种场景。实时计算主要应用于实时互联网数据分析、实时数据大屏、实时金融风控、电商实时推荐等诸多领域,助力中国企业向实时化、智能化大数据计算升级转型。

历史和发展

image.png

基于Apache Flink™️在阿里巴巴搭建的平台于2016年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。为了将Apache Flink™️在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,将产品命名为流计算,今年8月已正式更名为实时计算。

目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于Apache Flink™️搭建的实时计算平台。同时Apache Flink™️计算平台运行在开源的Hadoop集群之上。采用Hadoop的YARN做为资源管理调度,以 HDFS作为数据存储。因此,Flink可以和开源大数据软件Hadoop无缝对接。阿里集团内,淘宝、天猫、天弘基金、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术,实时计算今年4月份正式商业化以来,半年时间,在集团外积累用户也已经超过2000家。

解决痛点

640.gif

双十一实时数据大屏(Demo)

阿里云实时计算可以提供FlinkSQL协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,实时计算提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用FlinkSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的实时计算更擅长于做流式数据分析、统计、处理。主要解决了用户的三大痛点:

1.流式数据的及时性

在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而实时计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

2.一站式的流式数据处理

不同于开源或者自建的流式处理服务,阿里云实时算是完全托管的流式计算引擎,可针对流数据运行查询,无需预置或管理任何基础设施,用户可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据开发、数据运维、监控预警等服务,方便用户最小成本试用和迁移流式计算产品。

3.SQL化的流式分析

支持标准SQL(产品名称为:FlinkSQL),提供内建的字符串处理、时间、统计等各类计算函数,替换业界低效且复杂的Flink开发,让更多的BI人员、运营人员通过简单的FlinkSQL可以完成实时化大数据分析和处理,让实时大数据处理普适化、平民化。

典型场景

image.png

实时计算典型场景应用

实时计算擅长解决的几个领域的应用场景包括,实时的网络点击PV、UV统计;统计交通卡口的平均5分钟通过车流量;水利大坝的压力数据统计和展现;网络支付涉及金融盗窃固定行为规则的告警等。特别适合BI人员、大数据开发人员等用户。

大体分为四种典型场景:

互联网点击流分析:实时分析网站用户行为,精准实时把握用户画像;

金融实时风控:实时监控金融恶意行为,实时风控避免用户损失;

物联网IOT风控:实时监控侦测设备故障,即使避免潜在业务风险;

电商精准推荐:实时跟踪用户行为变化,精准推荐提升产品销量。

客户案例

image.png

实时计算客户列举

经过两年的发展,实时计算在集团内,淘宝、天猫、蚂蚁金服、菜鸟、工业大脑等诸多业务均大量应用了实时计算技术。今年以来,众安保险、全民TV、千寻、新华智云等集团外部客户也上线了诸多实时计算的典型场景和应用。

关于‘独享模式’

image.png

实时计算架构图

实时计算今年4月份商业化以来,一直以‘共享模式’的形式对外输出,在批处理领域,SQL 已经经历了几十年的考验,是公认的经典。但另一方面也对用户造成两大困扰:

1.仅使用 SQL难以描述自己的业务逻辑;

2.将某些已有的存在于代码中的业务逻辑翻译成SQL,烦不胜烦。

因此,实时计算独享模式应运而生。独享模式,是实时计算在原有共享模式基础上的补充。用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立。具备UDX开放、丰富的硬件、用户间的隔离等特性。

权威解读

实时计算团队将于11月14日举办实时计算产品线上发布会,届时重磅发布实时计算独享模式,资深技术专家和高级产品专家将共同分享阿里眼中下一代大数据计算引擎大前世今生。

演讲主题:《阿里巴巴对Apache Flink™️的改进和贡献》

image.png

王峰(莫问)
阿里巴巴资深技术专家

2006年毕业后即加入阿里集团,长期从事大数据技术研发工作,目前在计算平台事业部担任资深技术专家,负责实时计算引擎团队,旨在打造世界一流的实时计算平台。对Apache Flink™️进行了大量架构改进,功能完善和性能提升,打造出了阿里新一代实时计算引擎,并统一服务阿里集团所有实时计算业务和实时计算云产品。

演讲主题:《阿里云实时计算:下一代大数据计算引擎》

image.png

陈守元(巴真)
阿里巴巴高级产品专家

阿里巴巴实时计算团队产品负责人,2010年毕业即加入阿里集团参与淘宝数据平台建设,近10年的大数据从业经验,开源项目Alibaba DataX发起人,当前负责阿里实时计算产品的规划与设计,致力于推动Apache Flink™️成为下一代大数据处理标准。

此外,针对此次发布会,我们准备50件礼品给参与互动和问答的同学,欢迎对实时计算/Apache Flink/大数据处理 感兴趣的爱好者们届时观看活动直播,与我们的嘉宾进行线上互动!

image.png

注:Apache Flink™️ 是Apache的商标,受版权保护

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

分享阿里巴巴搜索推荐团队在技术领域的经验

官方博客
官网链接