大数据网红发现神器

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 你可能是下一个网红么? 机器说了算

据外媒报道,由于基因突变以及环境变化,在过去一年中,科学家们共在地球上发现18000多个动物和植物新物种。而在互联网生态中,网红、淘女郎、砍价师、服务商、村淘合伙人等新物种也层出不穷。

95bc7be0098f036e5cc03f377bcc4c350c9cab3b

2015年可以说是网红元年,以罗辑思维为代表的网红受到用户追捧。2015年10月,罗辑思维宣布完成B轮融资,公司估值达到13.2亿元。罗辑思维的天猫店开了1个月零14天,营业额达到240万元。 而在2015年“6.18”大促中,销量TOP10的淘宝女装店铺也中有7家是“网红”店铺。这些店铺的“掌柜”张大弈、赵大喜、于梦姣等均是知名网红,拥有强大的粉丝号召力,教人如何搭配服装、紧追时尚、并最终把粉丝转化为购买力。


网红对电商的增量市场意义重大,因此需提前发现潜在的网红并对这些潜力股进行专业化运营,以帮助这些潜力股加速成长。据了解淘宝专门针对这些网红提供主题活动、在PC端开辟专门的红人馆,手淘端也开辟了达人淘等多种专业的网红“孵化培育”服务。


但是如何在海量的店铺中提前甄别出那些网红,却是非常有挑战的,靠人肉几乎是不可能完成的。具体的难度有3点:

1.     如何去刻画网红,网红例子很容易找到,却很难用语言去描述其特征;

2.     人工从海量店铺中识别“特征”效率不高,费时费力;

3.     难以预估潜在网红的总量,有些垂类里面不太适合网红模式,因此不会生长出太多网红。 


阿里数据应用部的科学家表示这些人肉不能完成的任务,可以通过人工智能来解决。人工智能用在这个地方可以解决实际问题,比下棋看起来更务实一些。首先可以通过若干种子店铺作为模板进行特征学习,发现刻画特色店铺的特征,基于相似搜索的思想从海量店铺中自动化识别特色店铺,进而利用机器学习对圈选出的店铺进行排序并结合运营行业经验预估特色店铺体量。

 

9835c8659a7baf7c647a07ed819a143039a584d5

工作原理


据悉,阿里数据科学家通过特征工程与分析,从店铺基本信息、买家人口特征、消费行为信息和社交网络信息四个维度,从种子店铺中选出最能刻画店铺特色的200个左右的特征(feature):

 

得到这些重要特征后,基于阿里云MaxCompute(原ODPS)大数据计算平台,使用Cosine相似度方法,模型会利用这些特征计算相似度,从海量店铺中过滤掉与种子店铺显然不相似的店铺;然后针对不同运营场景建立细腻的规则引擎进一步过滤非特色店铺,最终筛选出真正有潜力的网红店铺。


最后利用机器学习计算出一个分数来对已经产出的特色店铺进行排序,使得越靠前的店铺越符合运营需求。通过设定阈值,可以把全部体量的潜在网红店铺全部筛选起来。


据称,为了使这种机器学习判断更为精准,阿里数据科学家在每次运营人工检查完店铺后,会将符合需求的特色店铺会加入到种子店铺中,不符合需求的特色店铺会加入到模型黑名单中,这样可以调优模型参数,帮助模型更好地学习相关特征,从而得到更为精准的相似度与排序结果。


阿里科学家表示,目前该模型已经应用于服装、运动、珠宝以及家居等一系列垂直品类中,并取得了不错的效果,模型精准度最高达到90%。比如针对女装的垂类,经过模型的几次迭代以后,最终筛选出千家以上的网红店铺,这些店铺的成交能占女装Top100卖家中的20%,加以专门的网红平台服务,这些店铺将会发挥越来越重要的作用,同时也持续不断孵化出新的网红店铺。

 

阿里科学家表示,虽然模型算法并不是十分复杂,使用的数据量也不是非常海量,但是这是数据科学与电商运营知识的完美结合,解决的是实际问题,并且商业价值巨大。这也从另一个角度阐述了大数据与小数据的关系,对务实的企业而言,无论是大数据还是小数据,只要可以挖掘出商业价值都是好数据。真正的难点是大数据思维,以及如何从海量数据中找到有价值的小数据。



扫描关注,了解更多阿里大数据&人工智能案例

f9e53479c5a142d50125162e3f02d0ea3a367794

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
存储 分布式计算 运维
揭秘“撩”大数据的正确姿势:生动示例解说大数据“三驾马车”
揭秘“撩”大数据的正确姿势:生动示例解说大数据“三驾马车”
|
人工智能 Cloud Native 安全
「开源人说」|大咖齐聚首,大数据&AI开源话题对碰
「开源人说」第四期——大数据& AI专场在今年云栖大会举办,阿里巴巴开源委员会大数据AI领域副主席王峰和阿里云AI开源项目EasyRec负责人施兴现场分享热门开源项目背后的故事。开源中国创始人&CTO红薯,白鲸开源联合创始人代立冬,浙大博导赵俊博,InfoQ总编辑王一鹏、Apache软件基金会成员李钰等嘉宾圆桌共话,对开源热点及痛点问题展开激烈讨论。
138864 5
「开源人说」|大咖齐聚首,大数据&AI开源话题对碰
|
存储 分布式计算 搜索推荐
一场变美盛宴后面的大数据故事
小红唇和阿里云大数据平台的牵手要从2016年5月份说起。随着小红唇业务的发展,用户量和内容量不断增加,迫切需要推出个性化功能,增加用户的使用时长和用户粘度。对于一个没有大数据/机器学习经验和技术储备,并且开发人员有限的年轻团队,在业务快速发展的情况下,如何在非常有限的开发资源和不影响正常业务开发的前提下,快速建立起自己的推荐系统,成为摆在小红唇技术团队面前一个不小的挑战。
6468 0