据外媒报道,由于基因突变以及环境变化,在过去一年中,科学家们共在地球上发现18000多个动物和植物新物种。而在互联网生态中,网红、淘女郎、砍价师、服务商、村淘合伙人等新物种也层出不穷。
2015年可以说是网红元年,以罗辑思维为代表的网红受到用户追捧。2015年10月,罗辑思维宣布完成B轮融资,公司估值达到13.2亿元。罗辑思维的天猫店开了1个月零14天,营业额达到240万元。 而在2015年“6.18”大促中,销量TOP10的淘宝女装店铺也中有7家是“网红”店铺。这些店铺的“掌柜”张大弈、赵大喜、于梦姣等均是知名网红,拥有强大的粉丝号召力,教人如何搭配服装、紧追时尚、并最终把粉丝转化为购买力。
网红对电商的增量市场意义重大,因此需提前发现潜在的网红并对这些潜力股进行专业化运营,以帮助这些潜力股加速成长。据了解淘宝专门针对这些网红提供主题活动、在PC端开辟专门的红人馆,手淘端也开辟了达人淘等多种专业的网红“孵化培育”服务。
但是如何在海量的店铺中提前甄别出那些网红,却是非常有挑战的,靠人肉几乎是不可能完成的。具体的难度有3点:
1. 如何去刻画网红,网红例子很容易找到,却很难用语言去描述其特征;
2. 人工从海量店铺中识别“特征”效率不高,费时费力;
3. 难以预估潜在网红的总量,有些垂类里面不太适合网红模式,因此不会生长出太多网红。
阿里数据应用部的科学家表示这些人肉不能完成的任务,可以通过人工智能来解决。人工智能用在这个地方可以解决实际问题,比下棋看起来更务实一些。首先可以通过若干种子店铺作为模板进行特征学习,发现刻画特色店铺的特征,基于相似搜索的思想从海量店铺中自动化识别特色店铺,进而利用机器学习对圈选出的店铺进行排序并结合运营行业经验预估特色店铺体量。
工作原理
据悉,阿里数据科学家通过特征工程与分析,从店铺基本信息、买家人口特征、消费行为信息和社交网络信息四个维度,从种子店铺中选出最能刻画店铺特色的200个左右的特征(feature):
得到这些重要特征后,基于阿里云MaxCompute(原ODPS)大数据计算平台,使用Cosine相似度方法,模型会利用这些特征计算相似度,从海量店铺中过滤掉与种子店铺显然不相似的店铺;然后针对不同运营场景建立细腻的规则引擎进一步过滤非特色店铺,最终筛选出真正有潜力的网红店铺。
最后利用机器学习计算出一个分数来对已经产出的特色店铺进行排序,使得越靠前的店铺越符合运营需求。通过设定阈值,可以把全部体量的潜在网红店铺全部筛选起来。
据称,为了使这种机器学习判断更为精准,阿里数据科学家在每次运营人工检查完店铺后,会将符合需求的特色店铺会加入到种子店铺中,不符合需求的特色店铺会加入到模型黑名单中,这样可以调优模型参数,帮助模型更好地学习相关特征,从而得到更为精准的相似度与排序结果。
阿里科学家表示,目前该模型已经应用于服装、运动、珠宝以及家居等一系列垂直品类中,并取得了不错的效果,模型精准度最高达到90%。比如针对女装的垂类,经过模型的几次迭代以后,最终筛选出千家以上的网红店铺,这些店铺的成交能占女装Top100卖家中的20%,加以专门的网红平台服务,这些店铺将会发挥越来越重要的作用,同时也持续不断孵化出新的网红店铺。
阿里科学家表示,虽然模型算法并不是十分复杂,使用的数据量也不是非常海量,但是这是数据科学与电商运营知识的完美结合,解决的是实际问题,并且商业价值巨大。这也从另一个角度阐述了大数据与小数据的关系,对务实的企业而言,无论是大数据还是小数据,只要可以挖掘出商业价值都是好数据。真正的难点是大数据思维,以及如何从海量数据中找到有价值的小数据。
扫描关注,了解更多阿里大数据&人工智能案例