通过女票的淘宝历程,大白话讲解大数据各个方向的分工

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 通过女票的淘宝历程,大白话讲解大数据各个方向的分工

大纲:

一、写作背景

二、开始淘宝

2.1 推荐系统(导购员)

2.2 大数据平台开发(店里监控布局)

2.3 实时计算(收银员)

2.4 数据仓库(储物间)

2.5 数据分析(店长)

2.6 离线计算(会计)

2.7 数据挖掘(精算师)

三、总结


一、写作背景

1.总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她都没听懂,她也不知道怎么跟她朋友说。最好的解决方法是换女票,当然这是不存在的,想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。


2.我的知识星球里很多伙伴都问了诸如此类的问题(一笔概括,证明女票是多么重要,滑稽脸


3.下次要是有人问你大数据开发是什么,希望你能把这篇文章分享给他。


二、开始淘宝


2.1 推荐系统(导购员)

一打开女票的手机淘宝页面,就发现推荐栏叫我女票换包。


微信图片_20220211165243.jpg


推荐商品栏以及热搜和搜索框中的内容,都是根据你定制的。你最近经常搜的物品和浏览的东西都被记录起来,然后被贴上标签。像我女票应该是被贴上「小仙女」、「时尚」、「少女」等标签,下次的女神节,情人节等节日活动的对象就是他们。


这个就是大数据中的推荐系统,专门猜你喜欢,类似导购,提高你的购买率。


2.2 大数据平台开发(店里监控布局

那么数据是怎么被记录的?被记录的又是什么数据?



微信图片_20220211165300.jpg



你的昵称,设备IP,浏览的足迹,每个商品停留的时间,浏览的时间段都是后台要采集的数据。


首先我们搭建一个平台,专门去定制收集数据的手段以及采取的策略和存放这些数据的地方,这就是大数据平台的搭建。类似你在你店里布置了监控探头,录音等设备,然后有其他店员通过这些设备帮你观察消费者的言行举止等等行为。



2.3 实时计算(收银员)

当你在浏览商品的时候,你会发现旁边会有实时的推荐,如下图:


微信图片_20220211165319.jpg


这是因为你在浏览商品的过程中数据不断被收集,然后被投放到上述的推荐系统中。但是那些用户名,商品等信息不一定都是规则的,有可能是数字,有可能是符号。所以我们这边要有一个程序员,专门负责实时的处理这些数据,把这些数据处理成有规则的,并存储到数据仓库中。至于为什么这样做,下面会解释。


这个过程就是大数据的实时计算,它具有时效性,就是不能停,立刻马上做出响应的。把它比喻成收银员就是为了突出实时,别人要结账你得立即做出响应。


2.4 数据仓库(储物间)

前面提到了数据仓库,顾名思义,存储数据的仓库。在我们一些工厂或者企业的仓库里,我们通常都会按循序、分类放好我们的物品,要制定规则,哪些能放,哪些不能放,哪些需要处理之后才能放。比如说你要放一个柜子,可能不能放,但你如果把它拆成木板就可以放,等要用的时候要拿这些木板去组装就行。


所以才有上述的实时计算,因为它要遵守数据仓库管理员制定的规则,将数据按照规格处理好才能进行存放。


2.5 数据分析(店长)

当你从淘宝给你推荐的商品挑选出你喜欢的之后,点击直接购买并付款。淘宝系统会生成一条你订单的数据到数据库里面,上面会有你的收件地址、联系方式、商品信息、数量等。


而这些数据有什么用呢?你可能会想说,留底当凭证啊。对的,不过不止这个作用。


举个例子:马云开会说:我要看一下这十年的内衣销售明细,各个地区的销售情况。这时候有个部门就要去整理出这些报表了,那就是数据分析部门,他们要从海量的数据中去分析这些指标,并整理成报表给马老板看。


马老板看了这些数据之后,得出一个结论:「浙江女性胸部全国最小」。然后呢?肯定是以后往浙江多进一些小码的内衣,以增加销售量,然后可能再顺带卖点木瓜什么的。


这就是数据分析带来的好处,为我们公司的高层提供决策上的支持。


2.6 离线计算(会计)

不对啊,十年的数据量,能说查就查吗?数据量得多大啊!没错,不可能说要什么数据立马就能查出来的。最理想的方案就是:当天结束就计算当天的指标,把销售额,地址什么的统计好,然后每星期再统计一下,每个月再统计一下,以此类推。那算十年不就分分钟的事?


对的,那这些事情谁来做呢?当然是我们离线计算工程师。离线计算顾名思义,实时计算的对立方,我们做的是幕后工作。可以将实时计算工程师想象为收银员,每个顾客买单时都得结账并打印发票什么的,不能拖延。离线计算则是会计,每天下班之后看着账单点数,看看今天哪些东西各卖多少。可以慢悠悠地算一个晚上,数据对就行,没人在乎你算了多久。


2.7 数据挖掘(精算师)

那这些处理好的数据不能光存着啊,得挖掘出它的价值。没错,根据这些订单数据,我们能推测出未来商品的一个销售走势,哪个地区需要投放哪些商品,这就是数据挖掘。数据挖掘相当于我们企业的精算师顾问,他会从你已有的数据去分析你之后的走势,给你提供一些有价值可供参考的建议。


我们要给数据挖掘系统投放有价值的数据,它类似我们人脑,输入的数据越有价值和参考性,预测的结果越准,否则只会误导。


三、总结

好了,通过以上步骤,淘宝更懂我女朋友了,它会推送更多符合我女票的胃口的商品,然后下单之后的数据会帮助那些商家投放更多种类的商品到该地区,选择更多了,我女朋友也更喜欢在淘宝购物了。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 SQL 监控
❤️淘宝大数据负责人建议数据开发从业者具有的3个核心能力❤️
❤️淘宝大数据负责人建议数据开发从业者具有的3个核心能力❤️
62 0
|
SQL 分布式计算 数据可视化
淘宝大数据分析案例
淘宝大数据分析案例
527 0
淘宝大数据分析案例
|
人工智能 DataWorks 算法
大数据&人工智能的“淘宝平台”来了:突破围城,连接生态
概述 有人说人工智能&大数据领域是个围城,厚厚的技术门槛构成了这道城墙。懂技术的人在围城里面,懂技术的人不一定有足够的业务去施展技术。而很多有业务需求的的人被隔在围城外面,有业务需求的人又不一定有足够的技术能力。
2400 0
|
4天前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。