阿里电商大脑,比你更懂你

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2016ATF阿里技术论坛于4月15日在清华大学举办,阿里巴巴搜索事业部资深总监、清华校友司罗,向我们讲述了如何构建电商大脑,让整个电商生态更加智能。比你更懂你,来源于在数据、计算与人工智能的完美结合。


2016ATF阿里技术论坛于4月15日在清华大学举办,阿里巴巴搜索事业部资深总监、清华校友司罗,向我们讲述了如何构建电商大脑,让整个电商生态更加智能。比你更懂你,来源于在数据、计算与人工智能的完美结合。 


下面请看司罗的图文演讲。 

 

   

   司罗:我们阿里的业务刚才阿白讲,是环绕全球的,阿里的技术团队也是全球跨地域的,我们有来自各个地方的阿里同事一起用技术的力量,在阿里这个大舞台上为大家创造价值。很高兴回到我的母校清华大学,还深深记得我大学时的老师精彩的课堂讲解和教导,记得当时我们上人工智能的课,我们老师讲了一个案例非常有意思,用人工智能的方法来解释他的小孩如何学家乡话,这么多年过去了,他的小孩已经长成了大小伙,人工智能和大数据在社会生活方方面面也有巨大的应用和进步。 



  

   今天非常荣幸来到这里和大家分享大数据在阿里的应用。新的世纪是大数据的时代,我们把数据和算法看作生产资料和生产力的关系如果没有智能算法,我们只能简单的累加数据,30年来,我们屡次见证了智能算法的力量,改变了人们对智能的认识,阿里巴巴在大数据上进行了非常多的创新。阿里电商的丰富场景提供了非常丰富的大数据,为我们创造了在大数据舞台上创造更多价值的机会。




 
我们可以认为电商的数据主要分为商家、商品、消费者和他们的关系,比如说商家,有着本身商品的上下架的数据,消费者有购买收藏,浏览商品等各种各样的行为。我们有非常丰富的电商数据,我们希望对这些数据能够进行深入的分析。



下面我举一个例子,分析数据我们发现,有些商品之间非常相关,如果我们看到数据说有人购买广场舞鞋后再购买老花镜。那我们对于所有购买老花镜的人推荐老花镜,大家觉得这样会有好的效果吗?实际情况不是这么简单,我们发现有的购买广场舞鞋的人他们的目的并不是自己持有,而是送人。比如说孩子给自己的母亲、或者送同事,所以说对所有购买广场舞鞋的人推荐老花镜是不合适的。精准的给50岁以上的中老年妇女推送是合适的,有好的效果。所以说数据有了,从数据中创造知识,算法深入分析数据是非常重要的。


  
个性化推荐是电商算法中一个非常重要的方法。第一,我们希望能够根据在线消费者的消费行为发现即时有效精确的信息,我们要抓住时尚潮流。同时我们也根据消费者个体、消费者画像,能够提供有针对性的商品,两个例子可以涵盖两方面的目的,在2015年 双十一 的过程中,阿里内部在运用了个性化的方法,让每个消费者看到了不同的主会场,大大提升了用户的消费者的点击率,其中点击率提升50%以上,证明了智能算法的价值。


  

我们所做的个性化算法,我们希望通过在线学习抓住消费者的心理,我们知道电商有各种各样的频道,有各种各样的行业,比如说天猫超市或者阿里汽车等等,原有的推荐很多都是人工来控制的,但是我们发现在实际的工作中,这种简单的设计是不全面的。比如说在下午2点钟左右是主妇消费群体,晚上8点钟左右是下班白领消费群体。所以说我们需要对不同的消费群体进行分析。我们的目的是从不确定中寻找规律。比如有一个赌客,来到赌场里尝试了一些赌博机。要最大化收益,他既希望把钱花到已经尝试的收益好的赌博机上,也希望尝试新的可能带来更好收益的赌博机。

 

在实际的应用中,每一个应用都有它自己的特色,比如说在电商领域,我们知道一个商家的连衣裙是非常热销的,我们也预估同个店铺的一个连衣裙新品可能热销。我们设计了HierarchicalContextual Banding Learning算法。我们说的这个算法,去年在阿里一个每天有上千万的流量的频道上线,每天能多产生近千万级的销售额,这里可以清晰的看到算法的力量。





 

那么第二个实例是手淘无线推送,无线推送就是在用户没有打开app的情况下,也能够推送信息主动触达用户。无线推送是一种非常重要的引流工具,我们的目的是希望在准确的时间向准确的用户发送准确的消息。我们把用户带到手机淘宝,这样的话可以提高用户浏览率的目的。这是我们去年时候的给一个用户推送一个分味小吃的食品的例子。手淘推送是一个非常重要的功能,它原有的工作方式是人工加简单规则,比如说阿里汽车等等,他们都希望自己的活动能够送达适合的人群,但是每个业务方他们由于受到资源的限制,他们无法精确计算适当的人群。而且我们希望一个用户只收到一个信息。所以原来简单人工的方法就是哪个业务方的活动先发,哪个活动拿到用户,这种方式造成资源浪费,无法进行更好的最大化全局利益(如总打开数)。我们做个性化的方法,能够根据消费者在阿里全网的信息,能够准确的分配各种活动到相应的用户,这种算法很大程度上提高了消费者的整体推送打开数。



  

下面我们讲一些有关模型方法的内容,它的目的是对于一系列的活动,希望把这些活动分配给消费者,能够把消费者最感兴趣的一个活动,仅仅一个活动能够送达到这个消费者,所以如果我们把这个弄成数学模型,那么我们在这个活动中,表示着我们究竟应该向什么样的用户发送什么样的信息。



 

我们的目标是希望最大化整体打开数,同时我们还有各种各样的方式来保证,活动应该选到适当的人群,也不要超过太多的人数。当然我们还要保证用户收到的是仅有一个的活动。我们通过优化的方式来实现,非常有效的帮助引流人群的需求,以及全局利益最大化的目的。



 

消息推送本身也是非常丰富的应用,一个方式是把图片加入消息推送中,一个信息本身包含了文字的信息,又包含了图片的信息,我们在算法上对于图片和图,文字的内容进行了联合建模,能够提升用户的体验,打开率可以提高推送10%20%。




还有一个就是基于地理位置信息的推送,我们从两个方式达到这个目的,一个是长时的LBS信息建模,还有一个就是更进一步的即时的LBS信息建模,比如说在一个商圈附近,我们知道这个消费者在线上对一个品牌感兴趣,如果刚好这个商圈附近一个线下的店铺做这个品牌推广,我们就把相应的信息推送给消费者,这样就形成消费者和信息的匹配。所以我们会做到更精准的推送,这样会比推送线上商品收到更精准的效果。



  最后一个我简单介绍一下,我们现在做的一个创新项目,淘宝头条,如果大家使用手机淘宝,你会发现有一个淘宝头条的栏目,淘宝头条的栏目是定位在生活消费资讯平台,能够更好的吸引消费者,提升消费者体验。



那么淘宝头条目的是为了让消费者看到该看的信息,找出消费者该看的想看的头条,同时我们也希望反向预估特定的人群他们所希望看到的信息,这样的话达到创造明日头条的目的。




下面一个关于算法的例子验证了多视角算法在阿里电商方面的运用。我们有一个同事刚生了小孩,一两个月的小孩得了比较重的过敏症,所以说医生嘱咐就要买比较柔软的浴巾,他在手淘上购买了非常柔软的纱布浴巾。下一次他登陆手淘时,头条就给他推荐了“过敏宝宝添加辅食,必须注意这5点的头条内容。以前他并没有搜索或用其他方式表示小孩过敏的情况,可是算法的力量能够给他提供他需要看,也是想看的内容,这是怎么达到的呢?




是因为我们的算法能够精确的发现,购买行为和浏览之间的关系,我们发现有很多的用户,他们购买了像全棉浴巾这样的东西,我们发现他们对小孩过敏的资讯感兴趣,我们把购买行为和阅读行为进行精准的连接。



 

我们头条算法经过了多次的迭代,小步快跑,最开始的算法只是把头条内商品的ID罗列出来来连接消费者。但很多头条没有的商品ID,我们只能通过这些内容信息更好的连接头条和消费者。同时我们也实现了在线学习的功能,用来提升用户体验。这些算法的效果是非常明显的,我们淘宝头条UV大约一年左右的时间增长到原来的4倍,非常显著。能够为消费者创造更多有趣,有意思的头条,同时也能产生更多,更大的商业价值。




 上面我只是介绍了三个的例子,整个阿里的电商算法应用是非常广泛的.希望以后有机会和各位老师同学多合作。 

  

  阿里搜索事业部求贤若渴,请联系 luo.si@alibaba-inc.com。 


关注了解更多阿里技术论坛内容



相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
运维 监控 数据可视化
日志服务 HarmonyOS NEXT 日志采集最佳实践
鸿蒙操作系统(HarmonyOS)上的日志服务(SLS)SDK 提供了针对 IoT、移动端到服务端的全场景日志采集、处理和分析能力,旨在满足万物互联时代下应用的多元化设备接入、高效协同和安全可靠运行的需求。
117803 111
|
JavaScript
vue 报错 Cannot find package ‘unplugin-vue-components‘ 解决
vue 报错 Cannot find package ‘unplugin-vue-components‘ 解决
782 0
|
11月前
|
机器学习/深度学习 数据挖掘 数据处理
深度学习之卫星图像中的环境监测
基于深度学习的卫星图像环境监测是指通过使用深度学习模型处理和分析来自卫星的遥感数据,以实现对地球环境的自动化监测和分析。这项技术极大提升了环境监测的效率、精度和规模,应用于气候变化研究、生态保护、自然灾害监测、城市扩张评估等多个领域。
468 1
|
11月前
|
分布式计算 大数据 Hadoop
大数据学习
【10月更文挑战第2天】大数据学习
395 16
|
机器学习/深度学习 资源调度 自然语言处理
Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE
在NLP中,位置编码如RoPE、CoPE等增强模型对序列顺序的理解。RoPE通过旋转矩阵编码位置,适应不同距离的相对位置。线性旋转、NTK和YaRN是RoPE的变体,优化长序列处理。CoPE是动态的,根据序列内容调整位置编码,改善长距离依赖的捕捉。这些技术提升了模型在处理复杂语言任务时的性能。
441 5
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。
|
监控 安全 网络协议
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32000 78
如何保证分布式文件系统的数据一致性
|
机器学习/深度学习 存储 算法
基于SFLA算法的神经网络优化matlab仿真
**摘要:** 使用MATLAB2022a,基于SFLA算法优化神经网络,降低训练误差。程序创建12个神经元的前馈网络,训练后计算性能。SFLA算法寻找最优权重和偏置,更新网络并展示训练与测试集的预测效果,以及误差对比。SFLA融合蛙跳与遗传算法,通过迭代和局部全局搜索改善网络性能。通过调整算法参数和与其他优化算法结合,可进一步提升模型预测精度。
|
缓存 监控 关系型数据库
2核4G 配置的MySQL 5.6如何调优为最佳qps,tps
要提高具有2核4G配置的MySQL 5.6的QPS(每秒查询率)和TPS(每秒事务数),可以通过以下方法进行调优: 1. 优化配置文件(my.cnf): 在MySQL的配置文件中,可以调整以下参数以提高性能: ``` [mysqld] innodb_buffer_pool_size = 1.5G # 设置InnoDB缓冲池大小,推荐值为服务器总内存的50%-80% max_connections = 500 # 设置最大连接数,根据实际需求进行调整 query_cache_size = 128M # 设置查询缓存大小,推荐值
1053 2