大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一,阿里数据平台事业部的服务器上,攒下了超过100PB已“清洗”的数据。
马云曾在2012年公开宣称,“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后,战略布局已经渐次展开:
2010年,推出重整的搜索业务“一淘”,2011年收购数据属性公司CNZZ,近期又接连收购友盟、入股新浪微博和高德,抢占数据源;在物流领域,阿里由天猫主导建设了与各大配送公司对接的“天网体系”,最近牵头成立智能骨干物流网络“菜鸟科技”,构建物流信息数据平台。
阿里数据十年铸剑,如今只是起手开了个局。
十年进化
从报表到分析工具、flash,阿里的数据产品越来越没“数据味”。
从2003年淘宝起步开始,阿里集团数据平台事业部负责人“七公”(本名汪海)就一直在与数据打交道,他的经历勾勒出了这家数据巨人的演变轨迹。
阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起初非常粗糙,无非数据库、IT系统,随后开始统计分析行业的基础指标,比如PV、UV等,当时的淘宝数据部门只有数名员工。
在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手——易趣,当时eBay、亚马逊都已成立成熟的BI部门。恰是与易趣的竞争,推动了阿里的数据应用。据淘宝内部人回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化分析需求,淘宝的数据团队开始积累流量数据的分析经验。
2004-2005年,淘宝逆转易趣,业务量激增,品类快速扩张,数据量随之跃升。淘宝开始意识到,不能再靠拍脑袋做经营决策了,需要实时观察掌握用户量和交易量的变化,进行精准分析。
2005年,淘宝成立商业智能部门,成为当时淘宝技术研发部门负责人姜鹏的直属部门。这一年,阿里拥有了第一款严格意义上的数据产品——“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。同年,阿里切入搜索、广告业务——两项业务均带有天然的数据属性,成为阿里大数据运营的开端。七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性更明确——搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI(投资回报率)。
2009年,阿里数据开始进入产品化时代。“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。
阿里的对外数据产品也浮出水面。脱胎于“雅虎统计”的工具“量子恒道”,为外部商户提供统计分析工具,用于跟踪自有店铺流量、点击、购买等数据的变化。
与数据产品的大裂变同步,2009年,阿里的数据技术架构,开始大变革。此前一年加入阿里出任首席架构师的王坚,一手主导了阿里架构从Oracle商用系统向Hadoop开源平台的迁移。相比IBM、Oracle等商用系统,Hadoop平台的优点是成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。
同年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一,开发出“云梯1”系统,以实现全集团所有数据的打通、整合的管理和共享。
这一系列变革之后,阿里最高层提出了“数据开放”。2010年初,淘宝推出“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成为了大中型商户追捧的数据利器。产品研发发端于阿里数据平台团队对客户的走访。当时,宝洁公司提出,希望了解行业数据,以帮助其经营决策。数据团队的员工提出,与其case by case解决,不如直接产品化,阿里数据的价值出来了!
此后,阿里内部数据产品的开发进入井喷状态。淘宝数据部门开发出“活动直播间”,帮助买家更好地参与促销运营。2011年上半年,“卖家云图”、“页面点击”接连出现。
2011年,现任阿里数据委员会负责人的车品觉加盟支付宝,发现阿里数据产品线存在短板:高层一端数据过多,关联性不强,难以快速进行全局诊断;一线运营一端总抱怨数据不够,数据间壁垒重重,没有进行整合。
于是,车品觉研发了两款产品,一款名为“观星台”,是一个高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;另一款叫“地动仪”,可以看到用户投诉最多的功能有哪些,甚至可以获取最原始的客服电话录音。随后,车品觉进入淘宝,又开发了两款产品“黄金策”和 “无量神针”。七公领导的另一支数据团队也开发了一系列产品,如 “淘宝指数”,以及2012年“双11”期间推出的“淘宝时光机”。
一家互联网公司数据挖掘业务的负责人评论,从“数据门户”到“数据魔方”,再到“淘宝指数”、“淘宝时光机”,阿里的数据产品从报表到数据工具,再到可视化图片甚至一组flash,看上去越来越没有“数据味”,但是,其对消费场景和行为的洞察却越来越深了。
高速公路与跑车
数据时科学的,数据的取舍、分析维度的选择更像是艺术。
2012年,阿里集团一系列架构调整,重构了阿里数据“达芬奇密码盘”的排序。
阿里云拆分,独立运行;阿里系的数据库和大规模运算资源整合为“数据平台事业部”,由阿里集团CEO陆兆禧亲自掌管;同时成立虚拟组织“集团数据委员会”,车品觉出任首任会长。
王坚领导的阿里云是“密码盘”中的最底层架构,提供基础的运算平台。譬如,阿里自行研发的“云梯2”体系,即建立在阿里云“飞天”架构之上;在此之上,则是七公领导的数据平台事业部,运营阿里集团共享的数据库,各业务公司产生的数据经清洗之后就存储在该事业部的服务器上;再往上即车品觉带领的淘宝网商业智能部门,他们使用数据进行分析。同时,“数据委员会”的成员们分属阿里各业务公司,他们利用七公团队的工作成果进行再分析。
可以这样理解三层架构:阿里云是IasS(基础设施即服务),阿里数据平台事业部是PaaS(平台即服务),而车品觉的团队则是SaaS(软件即服务)。
阿里集团内的数据大多都经过这样的旅程——用户在淘宝上的一个收藏动作,首先在淘宝网的前端服务器上产生一条日志,日志随后被传送到七公团队的服务器上存储,期间经过清洗过程,最后被编入数据库,与其他数据一同被储存在分主题的数据集市。当数据委员会的分析师们进行数据挖掘时,就可能被采用。
目前,数据业务平台已整合了阿里集团的全部数据。此外,阿里小微集团中创新金融事业部(即阿里金融)的数据也与该平台直接相连。
IBM咨询经理陈琪说,大数据概念存在两层结构。一层是人们热议的、不乏科幻感的分析预测能力;另一层则是处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。
车品觉做的是前者,而七公维护的是后者。
车品觉评论说,七公团队在修建高速公路,而他的团队则在高速路上驾驶跑车,“建高速公路是一个漫长的工程,需要巨大的投入、耐心以及细致。”七公告诉《21CBR》,其服务器上保有的历史数据已超过100PB,且都已经过“清洗”。
“清洗”被两人反复提及,它保障数据的质量,直接关乎大数据运营的准确性。那么,如何清洗数据?首先得让数据“对得上、产生关联”。互联网行业发展迅速且难于规划,通常不断试错、快速迭代,不同部门、业务之间的数据往往难于打通,不少公司各业务甚至连用户cookie、日志格式都不同。阿里或许是幸运的,从2004年起,整个淘宝系的日志格式就已统一。
这仅仅是开始,数据处理的链条极长,任何一个环节出错都会影响后端。车品觉说,数据污染往往有两个原因——采集错误、数据口径不同。前者往往来自于部门协作脱节,如前端业务部门的开发人员改变了页面功能但未及时通知数据部门,那么,相关用户行为产生的数据定义就已失真;后者则更易理解,譬如有的电商公司统计“转化率”只统计用户点击购买,有的公司则进一步考虑点击后是否付费、是否退款。
数据委员会的工作就是要统一集团的统计口径和统计方法,制定关于质量和安全的范式,其成员来自各个业务公司,由车品觉主持规范工作。2013年,他将数据质量和数据安全视为最重要的课题,设置了对应的两个小组。“数据是科学的,清洗过程中的取舍、分析时维度的选择则要靠分析师的修为,这部分不那么科学,更像是艺术。”车品觉说。
其实,参与阿里大数据战略的团队还有很多,如“共享平台事业部”旗下的搜索团队,担负着为集团各部门“清洗”非结构化数据的任务;数据平台事业部下有一支20多人的数据产品部团队,运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等向外开放的数据产品;各业务公司的分析师也都负责各自业务的数据清洗工作。
数据的觉醒
大数据概念不再是“忽悠”,正当“亮剑”时。
车品觉很推崇数据界前辈提出的一段“六字真言”:“对比、细分、溯源”。他认为还要加上一项“趋势”,这是由传统BI领域跃入“大数据时代”的关键一步。人们憧憬的大数据方法论,要求推测未来、洞悉全局、引导决策的能力。
不久前,车品觉曾在一次非正式交流中说,大数据概念目前看来仍是“忽悠”。接受《21CBR》采访时,他特意更正,“忽悠”是指现在的基础,大数据的前提拥有足够的数据、关联性,并具备相对应的运算能力和分析能力。最近几周,他一直在跟BI团队开会,提出要重新定义BI,“今天的BI以后未必好用,并不完全适合未来的数据世界。”
阿里集团整体正以数据作为行动新方向。
早在2011年,时任阿里集团首席人力官、支付宝CEO彭蕾(现任阿里小微集团CEO)就提醒车品觉,要尝试从“数据化运营”转向“运营数据”。
马云谋划的是,庞大数据平台作为信息流的精华部门,与物流、现金流结合,构建闭合且不断外扩的生态体系,除提供内部数据决策支撑之外,甚至可以形成数据的交易平台。阿里数据的分量已不容小视,淘宝系交易额已超过万亿元,其庞大生态中可以实时捕捉经济运行的脉动,阿里研究院每个月会接到好几波各级政府索要数据的要求。近期,不少政府官员前来向车品觉咨询大数据在公共行政管理的应用。
宏大愿景之下,阿里数据团队态势严峻。数据团队应该是CEO直属的战略级团队,如今,车品觉坦言,CEO、管理层的注视让他们感到压力日增。“马云知道数据要耐心养”,但是,高层已频频问及数据业务落地状况, “不能再只是讲故事了,我们到时候必须亮剑了”。
现在,车品觉的团队正加强挖掘内部数据的力度,为数据分析、预判提供更多可靠的参考维度。最近,团队的研究广度已从淘宝系延展到整个阿里系,并已开始考虑向阿里系外部提供数据工具。车品觉让数据产生商业价值的意愿空前强烈,他正积极搜寻机会,希望为合作伙伴提供足以指导决策的数据方案——2013年以前,数据产品提供的多是诊断辅助,现在开始引导决策。
这一计划已有成果出现。杨滔,车品觉团队中的一位数据科学家,他牵头为“聚划算”设计了一套数据工具,预测商品能否成为“爆款”。这款产品参考60多个变量,能输出商品是否爆款、最终销量、库存等数个关键预判数据,可直接作为商品能否参与活动的判断标准。据了解,该产品目前预测的准确度已达到80%以上。
杨滔正琢磨着参考更多维度的变量,将系统应用范围拓展到线上、线下的通用产品,以帮助综合零售企业整体预测实体店和在线渠道的销售和库存状况,直接作用于经营决策。杨滔还在开发一款产品,带有浓烈的“人机对话学习”色彩,通过研究淘宝购物推荐达人的行为,分析其规律,进而改进淘宝系统的推荐工具,提高个性化推荐的能力。
整个阿里系业务中,最为炫目的是阿里金融的小贷业务,这是大数据应用的典型案例,阿里金融数据团队设计的模型综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策,其贷款不良率仅为0.78%。
目前,阿里数据分析团队主要使用阿里内部的数据——仅仅这些他们还远没有完全挖掘,然而,车品觉认为,数据产品只有用更多维度进行综合关联比照,才能掌握更为真实的商业动向。阿里的数据支撑团队又一次提前开始“修路”——准备更多维度的外部数据。据透露,七公的团队已开始接入高德等关联公司的信息。
车品觉说,阿里目前已到了大数据的海边,是在国内互联网行业“做得最狠的”,“如果阿里做不出来,中国在大数据应用的进程可能会减速”。
原文发布时间为:2013-12-01
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号