阿里首次披露中台战略:OneData的统一数据标准和实时数据分析是核心

简介: 近日,阿里巴巴公共数据平台负责人罗金鹏首次对外披露了在阿里中台战略下,如何推动数据中台落地的个中细节,其中OneData的统一数据标准和实时数据分析是核心。

“阿里巴巴正在建设数据中台,统一处理集团近千PB数据,每天被扫描的数据量相当于2千万部高清电影。目前对外服务千万商家与其它生态伙伴,对内服务上万名小二,2015年双十一当天平台调用超过75亿次。”


d5f4d7962e5a63bc086353e5a2478f66d401d5fe

阿里巴巴公共数据平台负责人 罗金鹏 


4月20日, UBDC全域大数据峰会·2016上,阿里巴巴公共数据平台负责人罗金鹏首次对外披露了在阿里中台战略下,如何推动数据中台落地的个中细节。

 

据悉,中台战略是阿里巴巴于2015年底首次提出。作为阿里中台战略的核心之一——数据中台旨在对内提供数据基础建设和统一的数据服务,对外提供服务商家的数据产品。

 

OneData是阿里数据中台的核心,罗金鹏介绍,OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

 

统一数据标准是一项非常复杂的工作,譬如,针对UV这一相同的指标,在统一之前阿里内部竟然有10多种数据定义。据介绍,OneData数据公共层总共对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个。

 

尽管工程浩大,但是此举却为阿里带来了显著的收效。借助于OneData平台实时数据分析能力,在2015年双11当天,淘宝搜索排序中引入实时数据影响因子,实现增收数十亿元,罗金鹏表示。

 

在DT时代,数据暴增对存储计算成本带来很大的挑战。据罗金鹏介绍在没有建设统一的数据公共层时,阿里内部服务器需求量会在5年之后达到现在的100倍之多。而经过数据公共层的统一建设,5年后的服务器需求量相对会节约90%。

 

此外,阿里基于数据中台孵化了一个内部名叫“GProfile”全域用户档案的标签服务。“GProfile”根据用户行为,打上不同的标签,再推荐与买家消费能力和喜好匹配的商品。基于此每个用户在手机淘宝上搜索“连衣裙”,每个人看到的搜索结果都是不一样。

千人千面的个性化服务背后的数据基础就是“GProfile”。据罗金鹏的介绍,目前标签有300多种,如此多的标签,都是为了更精准地定位用户,从而实现更好的用户体验与精准营销。

除对内挖掘数据的价值,用技术驱动和创新内部的业务,阿里数据同时也将数据能力通过产品对外服务。而这一产品即是“生意参谋”,为商家提供多维度的数据服务,帮助商家通过数据分析来进行商业决策。

罗金鹏表示,生意参谋可以用数据化来贯穿到企业管理的整体链路中,包括了,品类管理数据化、营销数据化、品牌数据化以及服务数据化。

据悉到目前为止,生意参谋已经为千万商家服务,月成交额30万元以上的商家中,逾90%在使用生意参谋;月成交金额100万元以上的商家中,逾90%每月登录生意参谋天次达20次以上。

 

在DT时代,数据已经成为推动商业发展的新能源,而数据中台的建设成为新能源能否在阿里巴巴生态中发挥价值的关键。

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
1月前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
数据采集 SQL 数据挖掘
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
|
1月前
|
存储 分布式计算 搜索推荐
【专栏】数据之海,分布式计算、数据存储与管理、数据分析与挖掘成为关键技术
【4月更文挑战第27天】在大数据时代,数据量爆炸性增长、类型多样及处理速度需求提升带来挑战。分布式计算、数据存储与管理、数据分析与挖掘成为关键技术,如Hadoop、Spark、HDFS、NoSQL等。实际应用包括互联网搜索、推荐系统、金融科技、智能城市等领域,大规模数据处理发挥关键作用,持续推动创新与奇迹。
|
1月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
1月前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
270 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
1月前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
【4月更文挑战第15天】数据规整是将原始数据转化为适合分析和建模的格式的关键步骤,涉及缺失值处理(删除、填充、插值)、异常值检测与处理、数据类型转换、重采样、数据合并、特征选择和特征变换等任务。这些预处理步骤确保数据质量和准确性,为后续的数据分析和机器学习模型构建奠定基础。
35 4
|
1月前
|
存储 机器学习/深度学习 数据采集
数据分析师如何处理数据以进行分析?
【4月更文挑战第4天】数据分析师如何处理数据以进行分析?
26 9
|
1月前
|
机器学习/深度学习 数据可视化 算法
数据分析师如何处理缺失值和错误数据?
【4月更文挑战第4天】数据分析师如何处理缺失值和错误数据?
20 6

热门文章

最新文章