李文卓:揭秘美丽说数据体系建设三部曲

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
文章讲的是 李文卓:揭秘美丽说数据体系建设三部曲毫无疑问,美丽说的用户是女人,而自古以来女人对于美丽的追逐则是个永恒不变的话题。在2009年美丽说出现之前,网络上并没有一个非常出名的社区或者网站被爱漂亮时尚的女人所共同认可,据美丽说CEO徐易容称:“这部分人的需求并没有很好的被发掘出来”。

DTCC看点:美丽说数据体系建设三部曲

  创立于2009年11月的美丽说是国内最大的女性快时尚电子商务平台,2013年底从时尚导购网站转型成为时尚垂直电商平台,致力于为年轻时尚爱美的女性用户提供最流行的时尚购物体验,拥有超过1亿的女性注册用户,已获得四轮风险投资。

  在美丽说的用户看来,每天必上美丽说的理由除了氛围外,还有推荐的商品质量较高,信息搜索快捷有效,用户体验较好;而在专业人士看来,美丽说成功的关键则是提高了女性用户的购物时间性价比。什么叫时间性价比?就是在单位时间内找到满意的物品的比例。找到心仪的物品,时间越短,时间性价比越是高。美丽说帮助女性用户集中可能的选择,排除相对不可能的选择,从而完成一次时间性价比高的购物过程中。

  在这个购物过程中数据在其中扮演着关键角色,只有基于丰富的用户行为数据,以及个性化推荐算法,美丽说才可以帮助用户快速精准地找到最合适的潮流单品。那美丽说是如何做到精准推荐?如何保证和持续改进数据质量的?数据体系是怎样建设的?老鱼今天专访了美丽说大数据部门负责人李文卓,为大家揭秘美丽说数据体系建设三部曲。

DTCC看点:美丽说数据体系建设三部曲
美丽说数据智能部技术总监李文卓

  以下来自IT168老鱼对美丽说大数据部门负责人李文卓的采访实录。

  IT168老鱼(Q1):您好,很高兴有机会采访到您,请先向IT168网友介绍下自己?

  李文卓:我是李文卓,美丽说大数据部门负责人。加入美丽说之前曾在百度工作,负责过搜索算法,pc客户端,内部平台工具建设,以及和数据相关的系统,平台,评估,分析等工作,参与过的产品涉及中国和日本两个市场。目前任美丽说数据智能部技术总监,立志打造电商行业一流大数据团队。

  IT168老鱼(Q2):您在今年的数据库技术大会上的演讲内容核心是“数据”,今天我们的采访话题也将围绕数据展开,您能否用数据为我们介绍下美丽说?虽然大家都知道美丽说,但绝大部分认知仅限于美丽说是个做的还不错的时尚垂直电商平台,更多的可能就不知道了,今天能否为我们解密一些数据?

  李文卓:是的,美丽说是中国最大的女性快时尚电商,并成为最大的时尚发现平台,为用户创造最好的时尚发现体验,拥抱一切时尚爱好者,我们希望用互联网技术重新定义时尚行业,致力于为18~30岁的年轻时尚爱好者提供发现流行、评价、质量可信的时尚商品的平台。

  截止目前,已有1.5万家时尚优质商家入驻,每日新上架时尚商品超过10万件。2014年全年商品成家总额56亿,预期2015年目标商品成交总额将达到150亿。

  美丽说的用户,85后和90后占比达79%,主要集中在北京、上海、广州等一二线城市。

  美丽说在移动端发展非常迅速,移动客户端装机量突破1亿,访问时长达到30分钟,手机订单量超过PC,占比80%以上。

  IT168老鱼(Q3):美丽说13年底从时尚导购网站转型成为时尚垂直电商平台。在这个转型过程中,数据智能技术扮演了什么样的角色?能否在这里分享下转型过程中发生的故事。

  李文卓:确实,在美丽说转型为女性快时尚电商平台过程中,数据智能技术在其中发挥了重要的作用。美丽说通过传统门店无法比拟的互联网技术手段,获取了及其丰富的用户行为信息,并且进行深度的分析与挖掘。简单地说,用户行为分析就是用户在网站上发生的具体行为,如搜索、浏览、打分、点评、加入购物车、取出购物车、加入期待列表、购买、使用减价券和退货等操作。通过对这些数据的挖掘和分析,非常清楚地知道不同款式衣服的淡旺季、节点、热点在哪里,也可以知道各个季节、地区的规律性变化,这些就为产品、商家、货源等一系列决策提供非常关键的支撑。同时基于丰富的用户行为数据,以及个性化推荐算法,美丽说可以为用户快速精准地找到最合适的潮流单品。

  IT168老鱼(Q4):美丽说是从什么时候开始重视数据建设的?目前美丽说的数据量是什么量级?能否透漏下您今年的数据库技术大会上的演讲要点?

  李文卓:美丽说从成立之初就非常重视数据的建设,当时就已经有了独立的数据团队,特别是在公司转型为女性快时尚电商平台之后,数据建设的重要性被提升到公司战略层面整体考虑,数据智能部作为承载此战略的载体也顺势成立。

  今年数据库技术大会,主要是想结合美丽说数据建设以及个人从业的经历,分享一些数据体系建设的体会,主要会侧重在以下3点:

  1、基础日志的治理,日志是互联网公司获取数据非常重要的来源,日志的规范和治理体系也是数据体系建设非常根本的地方。但日志数据都属于非标准数据,数据量也非常庞大,其治理是一个非常复杂而且具备持续性的工作。

  2、数据仓库的建设,这是数据体系建设的核心所在,数据仓库建设的水平会决定数据服务团队的服务能力。

  3、数据质量建设,该部分和基础日志有很大关联关系,主要还是侧重在如何保证基础日志数据和数据仓库数据的质量上,以及美丽说的数据质量中心是怎么建设的。

  更多的细节,请大家关注当天的分享。

  IT168老鱼(Q5):美丽说的数据仓库体系结构是怎样的?设计目标是什么?在数据仓库建设中美丽说都遇到了那些问题和收获,有没有总结过?

  李文卓:美丽说数据仓库体系结构在设计上也是遵循传统的数据仓库三层结构的,由基础层(ODS),中间层和报表层组成,基础层主要存储的是ETL之后的全局基础日志数据。报表层主要存储的是数据汇总模型,更通俗易懂的说,报表层数据主要是面向需求的汇总数据。中间层存储的是流量、支付等数据主题模型,该层需要承上业务需求,启下基础日志数据,所以该层的主题模型建设至关重要。

  在美丽说数据仓库的建设过程中,不同阶段会面临着不同的问题,也正是这些问题,让我们在数据仓库的建设过程中不断收获。比如,在刚开始决定进行数据仓库建设时,底层日志比较混乱,造成数据不稳定,数据仓库建设很难开展,所以我们将目标转向先进行基础日志数据的治理上,继而逐渐建立起了一套完整的基础日志管理规范以及配套的系统;在数据仓库建立起来后,数据流向不清造成上层业务数据修改不彻底,底层数据修改对上层影响不透明,数据深层次的质量问题等一系列问题集中出现,我们在这个阶段推动建设了数据质量中心,很大程度的缓解了这些问题对数据仓库的影响;由于数据仓库具有长周期高收益的特点,所以在面对快速出现的新业务和新产品时,在及时性上存在很大的缺陷,我们在实际的实践中,也逐渐建立并完善了针对新业务和新产品的数据支撑和数据仓库建设机制。

  IT168老鱼(Q6):数据作为企业核心资产重要性不言而喻,而数据质量无疑是数据建设的重中之重,美丽说如何保证和持续改进数据质量的?数据质量的提升对业务和运营决策带来的提升都有那些?

  李文卓:我们专门成立了一个数据质量建设的方向,用来持续完善和丰富我们的数据质量体系。到目前为止,我们已经建立起了由涵盖基础日志、线上重要业务库、数据仓库,数据应用元数据的元数据管理系统,数据监控离线/实时扫描系统,以及包括异常分析、产出分析、合理性分析、血缘分析的数据质量分析系统等等一系列系统组成的数据质量中心。

  这一系列数据质量基础系统的持续建设,使得经由数据仓库提供给公司业务和产品使用的数据准确性和稳定性有了非常明显的提升,特别是对于很多涉及到交易和支付这类对于准确性要求很高的数据价值比较大。

  IT168老鱼(Q7):我了解到您一直从事数据方面工作,请您从个人职业生涯感受,为我们网友分享下工作中的心得与体会?

  李文卓:心得称不上,只能算是简要说说同龄的朋友应该都会有同感的一些体会:

  一、从小事做起,沉的下心,吃的了亏。这句话说起来虽然简单,但是道理深刻。在数据这个行业,每天都会面临各种琐碎的数据需求,繁复枯燥的数据分析,如果一上来就是夸夸其谈好高骛远,斤斤计较于自己成长上一时的得失,那么决然是做不好数据的。每个行业都有其比较成体系的职业发展路径,只要潜下心来,放稳心态,不管是什么行业,都能有自己很好的施展空间。

  二、认准了,就去做,不跟风,不动摇。在实际的工作中,很多事情知易行难,关键还是要有行动,要能坚持下去,出错不怕,就怕不敢犯错,犯错不会去总结和反思。三、开放心态,学习心态。我理解为,开放心态的人,不会自以为是,才能真正做到对事不对人,保持活性,不断的接受新的东西。而学习心态,不仅仅指的是从书本学习,也指从实际的工作中学习,从周围同事那里学习。

  四、涉猎一些其他领域的知识。乍一听感觉和工作不相关,实际上相关度还是比较大的,毕竟很多事情往更高层次做的时候,主要都是在思维和思想的层面。建议大家平时在关注数据这个大家擅长的方向外,也多一些其他领域的关注。


作者: 覃里

来源:IT168

原文链接:李文卓:揭秘美丽说数据体系建设三部曲

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
运维 架构师 大数据
【深度剖析】大数据职业发展体系全解【附下载】
【深度剖析】大数据职业发展体系全解【附下载】
|
存储 数据采集 人工智能
谈谈数据中台建设启示
阿里巴巴的数据中台侧重对“烟囱式”应用数据的标准化和聚合,构建公共数据模型,发掘对内赋能运营和商家的数据价值。
谈谈数据中台建设启示
|
运维 Cloud Native 容灾
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?(3)
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?
476 0
|
运维 Cloud Native 容灾
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?(4)
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?
503 0
|
敏捷开发 运维 Cloud Native
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?(1)
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?
688 0
|
供应链 Cloud Native 搜索推荐
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?(2)
阿里云刘伟光:3.5万字拆解「核心系统转型」,核心从业者怎样寻得「出路」?
458 0
|
数据采集 供应链 数据管理
实时数据中心建设思路与企业实践|青训营笔记
本篇文章主要分为四个方面介绍实时数据中心建设思路与企业实践:1. 企业数据架构;2. 数据中心案例;3. 实时数据生产;4. 数据服务
150 0
实时数据中心建设思路与企业实践|青训营笔记
|
存储 监控 搜索推荐
通过女票的淘宝历程,大白话讲解大数据各个方向的分工
通过女票的淘宝历程,大白话讲解大数据各个方向的分工
通过女票的淘宝历程,大白话讲解大数据各个方向的分工
|
机器学习/深度学习 人工智能 分布式计算
“后红海”时代,大数据体系到底是什么?-下篇
大数据体系未来演进的4大技术趋势和3个待探索疑问。
|
大数据 MaxCompute
万师傅大数据体系实践案例
阿里云MaxCompute的大数据案例实践。
3109 0