阿里数据的十年进化-阿里云开发者社区

开发者社区> 小旋风柴进> 正文

阿里数据的十年进化

简介:  大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一,阿里数据平台事业部的服务器上,攒下了超过100PB已“清洗”的数据。 马云曾在2012年公开宣称,“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。
+关注继续查看
0.jpg

 大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一,阿里数据平台事业部的服务器上,攒下了超过100PB已“清洗”的数据。

马云曾在2012年公开宣称,“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后,战略布局已经渐次展开:

2010年,推出重整的搜索业务“一淘”,2011年收购数据属性公司CNZZ,近期又接连收购友盟、入股新浪微博和高德,抢占数据源;在物流领域,阿里由天猫主导建设了与各大配送公司对接的“天网体系”,最近牵头成立智能骨干物流网络“菜鸟科技”,构建物流信息数据平台。

阿里数据十年铸剑,如今只是起手开了个局。

十年进化

从报表到分析工具、flash,阿里的数据产品越来越没“数据味”。

从2003年淘宝起步开始,阿里集团数据平台事业部负责人“七公”(本名汪海)就一直在与数据打交道,他的经历勾勒出了这家数据巨人的演变轨迹。

阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起初非常粗糙,无非数据库、IT系统,随后开始统计分析行业的基础指标,比如PV、UV等,当时的淘宝数据部门只有数名员工。

在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手——易趣,当时eBay、亚马逊都已成立成熟的BI部门。恰是与易趣的竞争,推动了阿里的数据应用。据淘宝内部人回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化分析需求,淘宝的数据团队开始积累流量数据的分析经验。

2004-2005年,淘宝逆转易趣,业务量激增,品类快速扩张,数据量随之跃升。淘宝开始意识到,不能再靠拍脑袋做经营决策了,需要实时观察掌握用户量和交易量的变化,进行精准分析。

2005年,淘宝成立商业智能部门,成为当时淘宝技术研发部门负责人姜鹏的直属部门。这一年,阿里拥有了第一款严格意义上的数据产品——“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。同年,阿里切入搜索、广告业务——两项业务均带有天然的数据属性,成为阿里大数据运营的开端。七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性更明确——搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI(投资回报率)。

2009年,阿里数据开始进入产品化时代。“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。

阿里的对外数据产品也浮出水面。脱胎于“雅虎统计”的工具“量子恒道”,为外部商户提供统计分析工具,用于跟踪自有店铺流量、点击、购买等数据的变化。

与数据产品的大裂变同步,2009年,阿里的数据技术架构,开始大变革。此前一年加入阿里出任首席架构师的王坚,一手主导了阿里架构从Oracle商用系统向Hadoop开源平台的迁移。相比IBM、Oracle等商用系统,Hadoop平台的优点是成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。

同年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一,开发出“云梯1”系统,以实现全集团所有数据的打通、整合的管理和共享。

这一系列变革之后,阿里最高层提出了“数据开放”。2010年初,淘宝推出“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成为了大中型商户追捧的数据利器。产品研发发端于阿里数据平台团队对客户的走访。当时,宝洁公司提出,希望了解行业数据,以帮助其经营决策。数据团队的员工提出,与其case by case解决,不如直接产品化,阿里数据的价值出来了!

此后,阿里内部数据产品的开发进入井喷状态。淘宝数据部门开发出“活动直播间”,帮助买家更好地参与促销运营。2011年上半年,“卖家云图”、“页面点击”接连出现。

2011年,现任阿里数据委员会负责人的车品觉加盟支付宝,发现阿里数据产品线存在短板:高层一端数据过多,关联性不强,难以快速进行全局诊断;一线运营一端总抱怨数据不够,数据间壁垒重重,没有进行整合。

于是,车品觉研发了两款产品,一款名为“观星台”,是一个高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;另一款叫“地动仪”,可以看到用户投诉最多的功能有哪些,甚至可以获取最原始的客服电话录音。随后,车品觉进入淘宝,又开发了两款产品“黄金策”和 “无量神针”。七公领导的另一支数据团队也开发了一系列产品,如 “淘宝指数”,以及2012年“双11”期间推出的“淘宝时光机”。

一家互联网公司数据挖掘业务的负责人评论,从“数据门户”到“数据魔方”,再到“淘宝指数”、“淘宝时光机”,阿里的数据产品从报表到数据工具,再到可视化图片甚至一组flash,看上去越来越没有“数据味”,但是,其对消费场景和行为的洞察却越来越深了。

高速公路与跑车

数据时科学的,数据的取舍、分析维度的选择更像是艺术。

2012年,阿里集团一系列架构调整,重构了阿里数据“达芬奇密码盘”的排序。

阿里云拆分,独立运行;阿里系的数据库和大规模运算资源整合为“数据平台事业部”,由阿里集团CEO陆兆禧亲自掌管;同时成立虚拟组织“集团数据委员会”,车品觉出任首任会长。

王坚领导的阿里云是“密码盘”中的最底层架构,提供基础的运算平台。譬如,阿里自行研发的“云梯2”体系,即建立在阿里云“飞天”架构之上;在此之上,则是七公领导的数据平台事业部,运营阿里集团共享的数据库,各业务公司产生的数据经清洗之后就存储在该事业部的服务器上;再往上即车品觉带领的淘宝网商业智能部门,他们使用数据进行分析。同时,“数据委员会”的成员们分属阿里各业务公司,他们利用七公团队的工作成果进行再分析。

可以这样理解三层架构:阿里云是IasS(基础设施即服务),阿里数据平台事业部是PaaS(平台即服务),而车品觉的团队则是SaaS(软件即服务)。

阿里集团内的数据大多都经过这样的旅程——用户在淘宝上的一个收藏动作,首先在淘宝网的前端服务器上产生一条日志,日志随后被传送到七公团队的服务器上存储,期间经过清洗过程,最后被编入数据库,与其他数据一同被储存在分主题的数据集市。当数据委员会的分析师们进行数据挖掘时,就可能被采用。

目前,数据业务平台已整合了阿里集团的全部数据。此外,阿里小微集团中创新金融事业部(即阿里金融)的数据也与该平台直接相连。

IBM咨询经理陈琪说,大数据概念存在两层结构。一层是人们热议的、不乏科幻感的分析预测能力;另一层则是处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。

车品觉做的是前者,而七公维护的是后者。

车品觉评论说,七公团队在修建高速公路,而他的团队则在高速路上驾驶跑车,“建高速公路是一个漫长的工程,需要巨大的投入、耐心以及细致。”七公告诉《21CBR》,其服务器上保有的历史数据已超过100PB,且都已经过“清洗”。

“清洗”被两人反复提及,它保障数据的质量,直接关乎大数据运营的准确性。那么,如何清洗数据?首先得让数据“对得上、产生关联”。互联网行业发展迅速且难于规划,通常不断试错、快速迭代,不同部门、业务之间的数据往往难于打通,不少公司各业务甚至连用户cookie、日志格式都不同。阿里或许是幸运的,从2004年起,整个淘宝系的日志格式就已统一。

这仅仅是开始,数据处理的链条极长,任何一个环节出错都会影响后端。车品觉说,数据污染往往有两个原因——采集错误、数据口径不同。前者往往来自于部门协作脱节,如前端业务部门的开发人员改变了页面功能但未及时通知数据部门,那么,相关用户行为产生的数据定义就已失真;后者则更易理解,譬如有的电商公司统计“转化率”只统计用户点击购买,有的公司则进一步考虑点击后是否付费、是否退款。

数据委员会的工作就是要统一集团的统计口径和统计方法,制定关于质量和安全的范式,其成员来自各个业务公司,由车品觉主持规范工作。2013年,他将数据质量和数据安全视为最重要的课题,设置了对应的两个小组。“数据是科学的,清洗过程中的取舍、分析时维度的选择则要靠分析师的修为,这部分不那么科学,更像是艺术。”车品觉说。

其实,参与阿里大数据战略的团队还有很多,如“共享平台事业部”旗下的搜索团队,担负着为集团各部门“清洗”非结构化数据的任务;数据平台事业部下有一支20多人的数据产品部团队,运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等向外开放的数据产品;各业务公司的分析师也都负责各自业务的数据清洗工作。

数据的觉醒

大数据概念不再是“忽悠”,正当“亮剑”时。

车品觉很推崇数据界前辈提出的一段“六字真言”:“对比、细分、溯源”。他认为还要加上一项“趋势”,这是由传统BI领域跃入“大数据时代”的关键一步。人们憧憬的大数据方法论,要求推测未来、洞悉全局、引导决策的能力。

不久前,车品觉曾在一次非正式交流中说,大数据概念目前看来仍是“忽悠”。接受《21CBR》采访时,他特意更正,“忽悠”是指现在的基础,大数据的前提拥有足够的数据、关联性,并具备相对应的运算能力和分析能力。最近几周,他一直在跟BI团队开会,提出要重新定义BI,“今天的BI以后未必好用,并不完全适合未来的数据世界。”

阿里集团整体正以数据作为行动新方向。

早在2011年,时任阿里集团首席人力官、支付宝CEO彭蕾(现任阿里小微集团CEO)就提醒车品觉,要尝试从“数据化运营”转向“运营数据”。

马云谋划的是,庞大数据平台作为信息流的精华部门,与物流、现金流结合,构建闭合且不断外扩的生态体系,除提供内部数据决策支撑之外,甚至可以形成数据的交易平台。阿里数据的分量已不容小视,淘宝系交易额已超过万亿元,其庞大生态中可以实时捕捉经济运行的脉动,阿里研究院每个月会接到好几波各级政府索要数据的要求。近期,不少政府官员前来向车品觉咨询大数据在公共行政管理的应用。

宏大愿景之下,阿里数据团队态势严峻。数据团队应该是CEO直属的战略级团队,如今,车品觉坦言,CEO、管理层的注视让他们感到压力日增。“马云知道数据要耐心养”,但是,高层已频频问及数据业务落地状况, “不能再只是讲故事了,我们到时候必须亮剑了”。

现在,车品觉的团队正加强挖掘内部数据的力度,为数据分析、预判提供更多可靠的参考维度。最近,团队的研究广度已从淘宝系延展到整个阿里系,并已开始考虑向阿里系外部提供数据工具。车品觉让数据产生商业价值的意愿空前强烈,他正积极搜寻机会,希望为合作伙伴提供足以指导决策的数据方案——2013年以前,数据产品提供的多是诊断辅助,现在开始引导决策。

这一计划已有成果出现。杨滔,车品觉团队中的一位数据科学家,他牵头为“聚划算”设计了一套数据工具,预测商品能否成为“爆款”。这款产品参考60多个变量,能输出商品是否爆款、最终销量、库存等数个关键预判数据,可直接作为商品能否参与活动的判断标准。据了解,该产品目前预测的准确度已达到80%以上。

杨滔正琢磨着参考更多维度的变量,将系统应用范围拓展到线上、线下的通用产品,以帮助综合零售企业整体预测实体店和在线渠道的销售和库存状况,直接作用于经营决策。杨滔还在开发一款产品,带有浓烈的“人机对话学习”色彩,通过研究淘宝购物推荐达人的行为,分析其规律,进而改进淘宝系统的推荐工具,提高个性化推荐的能力。

整个阿里系业务中,最为炫目的是阿里金融的小贷业务,这是大数据应用的典型案例,阿里金融数据团队设计的模型综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策,其贷款不良率仅为0.78%。

目前,阿里数据分析团队主要使用阿里内部的数据——仅仅这些他们还远没有完全挖掘,然而,车品觉认为,数据产品只有用更多维度进行综合关联比照,才能掌握更为真实的商业动向。阿里的数据支撑团队又一次提前开始“修路”——准备更多维度的外部数据。据透露,七公的团队已开始接入高德等关联公司的信息。

车品觉说,阿里目前已到了大数据的海边,是在国内互联网行业“做得最狠的”,“如果阿里做不出来,中国在大数据应用的进程可能会减速”。


原文发布时间为:2013-12-01


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10086 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
11630 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9161 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13891 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4660 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
7502 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
22404 0
2736
文章
6591
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载