大数据之路:阿里巴巴大数据实践
内容简介:
在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。
《大数据之路——阿里巴巴大数据实践》就是在此背景下完成的。本书中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
阿里巴巴数据技术及产品部 著
电子工业出版社
图书试读:
大数据是什么?在过去的5年里,恐怕没有另外一个词比大数据更高频;也没有另外一个概念如大数据一样,被纷繁解读,著书立说。有趣的是,作为距离大数据最近的公司之一——尽管我们的初心或许和大数据没有直接关系——在关于大数据的理论和概念的争论中,阿里巴巴却鲜有高谈阔论。
因为自知而敬畏,因为敬畏而谦逊。甚至在大数据这个概念出现很久之前,阿里巴巴就不得不直面、认知、探索,并架构和大数据有关的一切。数据作为一个生态级的平台企业最直接的沉淀,亦是最基本的再生产资料。如果没有基于大数据的人工智能的应用,淘宝根本不可能面对每天亿级的用户访问数量。因此,仅仅因为本能,阿里巴巴一开始就自然生长在这样一个数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。阿里巴巴在大数据方面所做的各种艰苦努力,其实就是力图对抗这种无序和复杂的熵增,从中梳理结构,提炼价值。
这是一个历经磨炼、也卓有成效的长期过程。如书中所提到的,阿里巴巴不仅数据量超宇宙级,而且更是因为业务场景的复杂和多元化,其面对着甚至超过Google和Facebook的更复杂的难题。大部分时候,阿里巴巴都是在无人区艰难跋涉。每一组功能和逻辑,每一套架构与系统,都与业务和场景息息相关。这个黑洞膨胀之快,以至于大部分时候都是在出现痛点从而刺激了架构升级。换言之,大数据系统——如果我们非要用一个系统去描述的话——其复杂度之高,是几乎不可能在一开始就完整和完美地进行自上而下定义和设计的。从需求→设计→迭代→升华为理论,在无数次的迭代进化中,我们对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。
这个系统生长和进化的过程实际上已经暗暗揭示了阿里巴巴对大数据真髓的理解。大、快、多样性只是表象,大数据的真正价值在于生命性和生态性。阿里巴巴称之为“活数据”。活数据是全本记录、实时驱动决策和迭代,其价值是随着使用场景和方式动态变化的。简单地把数据定义为正/负资产都太简单。数据也不是会枯竭的能源。数据可以被重复使用,并在使用中升值;数据与数据链接可能会像核反应一样产生价值的聚变。数据使用和数据聚变又产生新的数据。活数据的基础设施就需要来承载、管理和促进这个生态体的最大价值实现(以及相应的成本最小化)。丰富的数据形式、多样化的参与角色和动机,以及迥异的计算场景都使得这个系统的复杂度无限升级。阿里巴巴的大数据之路就是在深刻理解这种复杂性的基础上,摸索到了一些重要的秩序和原理,并通过技术架构来验证和夯实。
如果说互联网实现了人人互联和通信,并没有深度地协同计算,那么这样的一个大数据平台和架构就是一张升级的、智能的互联网。这是人类自己设计出来的复杂的信息处理系统,同时也将是真正意义上人类智力大联合的基础设施。这是一个伟大的蓝图,我们敬畏其复杂度和潜能。《大数据之路——阿里巴巴大数据实践》便是阿里巴巴分享对大数据的认知、与世界共创数据智能的重要基石。数据技术及产品部作为阿里巴巴集团的数据中台,一直致力为阿里巴巴集团内、外提供大数据方面的系统服务,承载了阿里巴巴集团大数据梦想至关重要的数据平台建设。相信他们的实践和思考对同行会有很大的启发和借鉴意义。