阿里自研实时计算平台支撑双十一

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介:  本文讲的是阿里自研实时计算平台支撑双十一阿里巴巴11月7日宣布,其大数据团队自研的实时数据计算平台Galaxy ,目前每秒可运算数据超过500万条,预计双十一当天每秒运算量将超过1000万条,日处理消息数将超过1万亿条。针对每一笔交易数据,系统将实时反复检测70余次以保证数据质量。

 本文讲的是阿里自研实时计算平台支撑双十一阿里巴巴11月7日宣布,其大数据团队自研的实时数据计算平台Galaxy ,目前每秒可运算数据超过500万条,预计双十一当天每秒运算量将超过1000万条,日处理消息数将超过1万亿条。针对每一笔交易数据,系统将实时反复检测70余次以保证数据质量。

  一分钟成交破亿,一千多万人涌入天猫。这是2013双十一购物狂欢节第一分钟的战况。这些数据在杭州淘宝城内的数据大屏实时播报。大屏上跳动的每个数字,来自于阿里内部60多个系统间的紧密合作:当你在以最快速度秒杀到双十一热卖商品的同时,这些系统已经完成了无数轮的数据采集、传输、加工、计算以及反馈到页面的工作。这正是阿里未曾公开的技术--如何在保障数据质量的前提下实现实时计算?

  Galaxy是阿里巴巴自研的通用增量计算平台,能提供从分钟级别到秒级别、甚至毫秒级别延迟的实时数据计算能力。Galaxy解决了计算通用性、开发成本、数据质量等诸多难题,并提供可扩展、规模化的集群服务能力。

  目前,Galaxy每秒可计算数据已达500万条,每日处理的记录数超过2500亿,日处理数据量近2PB。想象一下:当你还在努力算出1024×1024等于多少时,这一秒钟内Galaxy已经拿到数据、计算结束、交出结果这一整套流程500万遍了。今年双十一,用户浏览、成交、手机APP等产生的数据量都将大规模增长。当天Galaxy的运算量预计每秒将超过1000万,日处理消息数将超过1万亿条。

  阿里巴巴数据质量团队介绍:“Galaxy不光要算得快,还得保证不能算错。”除了Galaxy之外,阿里研发了一套可以实时检测线上数据的系统,能够在1秒钟以内完成从数据产生到校验的过程,每笔交易可以实时建议70多次,以保障双十一的数据不会算错。

  比如,一个美国用户在双十一活动下单,刚付完款,可能由于国际间网络突然闪断,导致"已付款"状态数据没有传输回来。这时,呈现给买家的可能就是"交易失败"的状态。但通过数据实时检测系统,能在这个问题被消费者发现之前就开始报警进行处理。也许,还没消费者回过神来,这个问题就已经被纠正,丝毫感受不到"交易失败"曾经出现过。

  此外,Galaxy还设计了数据"防漏"措施,哪怕服务器突然宕机,也能保障数据不丢失,快速恢复后继续工作。想象一下:如果在你跟朋友约好晚上看电影的时候,你突然发了一场高烧昏厥过去,正常情况下,要去医院才能治好,并且得休息好几天。Galaxy不仅能自我修复,而且还能将时光倒回到那个晚上,你和朋友继续去看电影。

  目前,Galaxy已逐步支撑阿里集团绝大部分的实时业务和应用,包括淘宝、天猫、阿里云、菜鸟、聚划算、无线、搜索、广告、数据魔方等业务提供实时计算服务。

原文发布时间为:2014-11-06 

本文作者:景保玉

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168

原文标题:阿里自研实时计算平台支撑双十一

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
2月前
|
存储 SQL 安全
联通实时计算平台问题之如何体现集群治理的效果
联通实时计算平台问题之如何体现集群治理的效果
|
2月前
|
消息中间件 分布式计算 Kafka
联通实时计算平台问题之实时计算平台对于用户订阅和数据下发是如何支持的
联通实时计算平台问题之实时计算平台对于用户订阅和数据下发是如何支持的
|
2月前
|
消息中间件 监控 Java
联通实时计算平台问题之监控Kafka集群的断传和积压情况要如何操作
联通实时计算平台问题之监控Kafka集群的断传和积压情况要如何操作
|
2月前
|
消息中间件 监控 Kafka
联通实时计算平台问题之Flink状态后端数据量较大时,问题排查要如何进行
联通实时计算平台问题之Flink状态后端数据量较大时,问题排查要如何进行
|
2月前
|
消息中间件 存储 算法
联通实时计算平台问题之亿级标签关联实现且不依赖外部系统要如何操作
联通实时计算平台问题之亿级标签关联实现且不依赖外部系统要如何操作
|
2月前
|
消息中间件 监控 Kafka
联通实时计算平台问题之实时计算平台的数据处理流程是什么样的
联通实时计算平台问题之实时计算平台的数据处理流程是什么样的
|
2月前
|
搜索推荐 OLAP 流计算
OneSQL OLAP实践问题之基于 Flink 打造流批一体的数据计算平台如何解决
OneSQL OLAP实践问题之基于 Flink 打造流批一体的数据计算平台如何解决
38 1
|
2月前
|
监控 Java Serverless
美团 Flink 大作业部署问题之想在Serverless平台上实时查看Spring Boot应用的日志要怎么操作
美团 Flink 大作业部署问题之想在Serverless平台上实时查看Spring Boot应用的日志要怎么操作
|
4月前
|
机器学习/深度学习 人工智能 Apache
人工智能平台PAI操作报错合集之alink任务可以在本地运行,上传到flink web运行就报错,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
SQL 关系型数据库 Java
实时计算 Flink版操作报错之在阿里云DataHub平台上执行SQL查询GitHub新增star仓库Top 3时不显示结果,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。