机器学习&人工智能:数据赋能背后的黑科技

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 背景 马老师曾提到三次技术革命:“第一次技术革命是体能的释放,是让人的力量更大,第二次技术革命是对能源的利用,使得人可以走得更遥远,而这一次技术革命是IT时代走向DT时代,是真正的大脑的释放。我们其实正在进入一个新的能源的时代,这个时代核心资源已经不是石油,而是数据。


背景

马老师曾提到三次技术革命:“第一次技术革命是体能的释放,是让人的力量更大,第二次技术革命是对能源的利用,使得人可以走得更遥远,而这一次技术革命是IT时代走向DT时代,是真正的大脑的释放。我们其实正在进入一个新的能源的时代,这个时代核心资源已经不是石油,而是数据。”。 逍遥子也曾经讲过:“我们用大数据赋能了双11,赋能了我们自己的运营能力。我们还要更上一层楼,利用大数据赋能所有的商家,帮助他们运营好消费者,这样才能让我们在大数据时代践行‘让天下没有难做的生意’的使命。”

新商家事业部自去年12月成立以来,数据赋能商家就是重要的方向之一。我们将之前平台沉淀的数据和算法的能力转过来赋能我们为商家提供的工具和平台,这其中包括客户运营平台、千牛、服务市场等等。很多技术在今年的双11也起到了非常显著的作用,为商家带来实实在在的收益。下面从客户运营平台、千牛头条、服务市场三个产品给大家分享一下我们如何通过ML&AI技术重新定义产品。


客户运营平台

客户运营平台旨在为商家提供基于大数据和人工智能的客户精细化运营能力。阿里巴巴2015年提出客户运营战略方向,带领平台的商家从“流量经营”向“客户运营”转型。客户运营的核心理念有两个方面:其一是精细化,其二是从过于关注短期经营的成交目标向关注客户粘性、客户体验、客户忠诚度的目标转变。客户运营平台提供了“访客运营”和“会员粉丝运营”两大利器,借助大数据和人工智能技术,帮助商家提升客户运营的效率。2016年双11,超过23万商家通过客户运营平台实现了店铺的个性化运营和粉丝会员的精准营销,显著提升了成交转化。下面以访客运营为例,介绍AI分群引擎的应用。

访客运营通过对访客的细分和精准营销策略来提升转化的效果。如下图所示,是某美妆店铺的访客分群个性化店铺首页策略示例,左侧和右侧分别是针对水乳类和面膜类偏好人群的个性化首页,通过面向细分的人群投放有针对性的内容,可以显著提升客户体验和访客成交转化率。类似的分群运营策略还可以应用在详情、微淘等场景。


image


访客运营示例:个性化店铺首页

有别于普通的营销平台,阿里巴巴客户运营平台通过AI能力,实现了对访客的实时分群,也就是说当客户进入店铺的一瞬间,客户运营平台的AI引擎会对用户所属的人群进行实时预测,得到此时此刻的最佳分群结果。下图是AI分群引擎架构图:

image


AI实时分群的三大特点如下:
1.行业级别的模型 同一个特征在不同的行业会有不同的重要性,例如地域属性,对于美妆行业用户是否偏好保湿产品具有较强的预测能力,因为北方干燥,南方潮湿,而对于快消行业,比如用户是否会喜欢吃某种口味的零食,地域属性预测能力就会比较弱。因此同一个特征在不同的行业会有不同的权重。

2.长期、近期和实时相结合的特征体系 例如用户对男装、女装、童装三类服饰商品的偏好,既受用户的人口统计学特征,比如性别、年龄段的影响,又受随机实时情境的影响,比如女性客户可能会为男友或家人购买男装,因此当我们按照偏好对客户分群时,既需要考虑长期稳定的属性和行为,又需要结合实时的行为和需求。

3.店铺分群自适应 以美妆行业为例,从用户在平台层面上的行为来看,大部分用户可能会偏好美白、保湿功效的产品,而具体到某个品牌,其主营的产品品类和平台总体的品类成交分布很可能有较大偏差,比如一些品牌可能是主打彩妆,另外的一些品牌则主打紧致类的产品。当我们用平台整体数据建立的模型对用户在某个店铺的分群归属进行预测的时候,很可能会出现偏差。为了使得AI引擎能够适应店铺多样化的情况,我们从两个角度进行了升级,其一是引入店铺内销量分布作为分群结果的先验,其二是引入了增强学习技术(多臂老虎机MAB)为每个商家自动调整模型参数。

对比于静态的人口统计学分群方法,AI分群具有实时性高、精准性好、店铺自适应等特点,商家实际使用的效果提升也更加显著。

阿里巴巴作为一个新零售平台,平台上的商家具有很高的多样性。客户运营平台基于增强学习技术的自适应技术,能够使得AI分群自动适应每个店铺的策略特点。通过该方法的应用,在一级类目偏好分群的场景下,成交转化率提升超过10%,同时个性化的渗透率大幅提升40%。


双11大促店铺承接页个性化技术

今年双11阿里巴巴首次实现了全面的全站个性化,包括从会场到大促承接页到店铺再到详情,而大促店铺承接页是连接会场与店铺的桥梁,大促承接页的整体活动氛围和布局由平台确定,商家可以通过页面装修工具来装修商品模块、营销模块等内容。2016年双11大促承接页首次实现了全面的个性化,实现了显著的成交转化提升。

image


大促承接页个性化属于单个店铺内的个性化,相比于平台级的个性化场景(例如手机淘宝猜你喜欢、有好货等),具有一些特有的挑战。平台级的个性化我们可以想象为把平台的大量商品作为候选商品,形成一个虚拟店铺,用户在平台上的行为都是这个虚拟店铺内的行为;店铺内的个性化,候选商品为单个店铺的商品,用户在单个店铺内的行为是非常稀疏的,必须要考虑借助用户在平台整体的行为来做好店铺内的个性化。面向店铺内个性化的特点,我们的AI个性化引擎框架主要包括matching框架和ranking框架两个部分。

matching框架解决的是用户偏好意图的覆盖,即基于单店的小数量级商品尽可能全面地匹配用户的偏好和意图,matching框架还有一个重要的作用是为ranking提供输入特征;ranking框架解决的是个性化商品列表的最优排序问题,它基于历史反馈数据、用户特征、商品特征、用户与商品的交叉特征等训练面向特定业务目标的模型。

image


在matching阶段,我们可插拔的框架支持多种matching方法:
1.基于图挖掘的matching方法 包括adsorption、adar、jacacard、simrank、simrank++以及基于大规模流式计算的增量ItemCF方法;
2.基于索引的方法 包括minhash、simhash等hashing-based的方法,利用局部一跳信息建立商品索引;
3.基于Graph Embedding的方法 Graph Embeding也是一种商品索引,与hashing-based方法的不同之处在于它可以利用图的全局信息、多跳信息来建模,具有更高的覆盖度;
4.基于语义匹配的方法 例如基于用户偏好的商品属性与商品本身的属性进行匹配;
5.基于流式计算的方法 基于流式计算引擎,实时更新商品之间的关联关系,更好地捕捉线上流量的变化
6.面向场景的适配 基于排序学习技术,可以将上述方法的输出进行面向场景的重新排序和打分,使得matching层面向特定场景调优

我们创新地提出了面向电商场景的大规模分布式Graph Embeding的算法。商品Embedding算法可以将一个现实生活中的商品实体表示成低维空间里的一个向量,使得我们可以仅通过这些向量之间的空间位置关系就能得到商品之间的某些联系。由于我们可以将学习出来的Embedding向量作为更上层机器学习任务的输入,这就使得Embedding这样的表示学习非常有潜力。在双11中,我们设计实现了一种能够保持非对称关系的Graph Embedding算法,来对商品进行Embedding。由于用户对大部分商品(长尾)的点击行为非常稀疏,我们选择将用户的点击序列拼接成商品点击转换图的形式,来试图缓解稀疏性问题以提高商品Embedding的质量。另一方面,为了表示商品之间的非对称关系(例如购买手机后可能会对手机壳感兴趣,但反之不成立),我们用两个Embedding向量来表示一个商品的不同角色(已被看过和待预测)。我们在构建好的商品图中,对每个商品节点按照带重启动的随机游走进行路径采样,并且仅按照采样的正方向分别对两个Embedding向量进行更新。我们基于分布式平台ODPS Graph首次实现了亿级别节点、百亿级边的大规模图数据的Embedding,并且在理论上,我们还证明了基于这种采样方式的Graph Embedding算法能够保持原图节点之间的Rooted PageRank的相似度关系,相关工作已被人工智能顶级国际会议AAAI 2017接收。

image


在ranking阶段,我们通过亿级特征的大规模稀疏模型,包括LR、FTRL、DNN(深度学习),十亿级样本的训练,实现精准的个性化排序。特征的体系包括用户、商品、matching特征、场景相关的反馈类特征、以及场景化(context)特征,在特征实时性方面我们会结合长期特征、短期特征和实时特征,在追踪线上变化的同时能够保持较高的覆盖度和稳定性;在样本层面,通过日志去噪、样本采样策略、样本构造策略(页面级样本和模块级样本),优化样本构造;在模型层面,通过天级、小时级和实时模型,结合面向不同目标的模型来综合优化业务目标,比如我们会利用多个模型对点击、加购、成交等目标进行建模,并实时结合多个模型来优化最终的业务目标。我们的分布式GBDT排序学习算法能够支持不同类型的排序函数,包括pairwise ranking和listwise ranking,能够从样本和特征两个维度对数据进行拆分并进行并行化训练,可以支持百亿级样本。深度学习模型训练基于阿里巴巴集团多机多卡的分布式GPU训练平台,可支持大规模亿级稀疏特征、亿级样本的神度学习模型快速训练。我们对深度学习实时预测的性能进行了深入优化,预测性能是普通实现的10倍以上。

通过算法细节的不断调优,双11承接页个性化效果显著,相比于非个性化页面,个性化页面的成交转化有超过20%的提升,带来了十亿级别的成交提升。


4.千牛头条技术介绍

4.1产品概述

千牛头条是一个定位于通过内容传播与运营,满足商家内容消费需求的商业媒体平台。为了满足商家获取实时、个性化资讯的需求,同时提高千牛平台的流量效率,为千牛头条上线了一套个性化的资讯推荐系统。

image
千牛头条双11和热门频道

目前个性化算法支持了热门feeds流、双11频道,后续会支持更多的频道和场景。

4.2千年头条推荐整体框架


image
千牛头条推荐系统总体框架

千牛头条资讯推荐系统的总体框架上图所示,整个框架可分为离线、近实时、实时三部分。

离线部分主要负责用户Profile构建以及关联数据挖掘;近实时部分主要包括新发布资讯的实时分析引擎,模型流式更新引擎;实时部分基于通用的推荐pipeline,并结合离线、近实时模块的产出结果,完成整套的推荐逻辑。

4.3 技术创新点

1.基于期望偏好的用户profile

为了全方位地刻画用户兴趣,从关键词、类目、行业等维度对用户兴趣进行建模。在计算用户profile过程时引入期望偏好,期望偏好是根据行为分布计算的用户预期行为分布,通过用户的期望偏好分布和实际偏好比较得到偏好分,最后用伽马泊松分布对偏好分进行平滑。

2.资讯实时分析引擎

对新发布的资讯进行实时文本分析,包括分词、关键词抽取,通过行业profile和Multi-task语义向量生成行业标签,并对资讯建立倒排索引,实现实时更新。技术上集成使用TextRank,Mutual Information, Log Odds Ratio三种关键词抽取算法实现精准抽取;Multi-task语义向量模型与传统的Word2Vector词向量模型不同,使用词的meta data数据,使得模型在给定上下文的情况下,同时学习词的分布和词meta信息分布。

3.Online Bayesian Logistic Regression模型

千牛头条用户在百万量级,每天的新资讯相对较少,每篇资讯能够累计较多的用户行为,为此采用了PerArticle的模型方法,即针对每篇资讯单独训练一个Online Bayesian Logistic Regression(BLR)模型,精细化地刻画每篇资讯。相比传统的LR模型,BLR模型认为模型参数本身是有先验分布的,具有更优的泛化能力,上线后ctr也有20%的提升。
其中就是LR模型的预测函数,就是Bayesian模型学习的参数分布。
在线Bayesian学习算法如下:
a)每一个参数有有一个独立的高斯先验
b)得到一批数据
c)优化目标函数
d)Laplace approximation求解目标函数,得到模型的均值,方差

4.高阶泛化统计类特征

模型使用的特征包含用户特征、资讯特征、用户与资讯的交叉特征等,其中用户与资讯的交叉特征是关键特征。传统的做法直接对用户特征和资讯特征进行交叉,这种方法很容易导致特征爆炸,交叉后大量冗余的特征容易导致模型过拟合;为了解决上述问题,采用了一种根据业务经验进行特征交叉,然后对交叉特征计算统计量的方法,该方法可以很好地解决特征组合爆炸问题,同时生成的统计类特征有较好的泛化性。

5.资讯冷启动

时效性在资讯推荐中至关重要,而新资讯由于缺乏线上反馈导致CF等基于行为的推荐算法失效。
从文章维度来看新文章没有用户行为,但是从新文章包含的关键词、主题等维度看,历史上有很多文章也都包含这些特征,因此可以根据新文章包含关键词、主题的历史表现推断新文章的表现。

4.4业务成果

千牛头条经历了两次大的算法升级,核心指标如点击率有了显著的提升,第一次升级增加了基于用户行为的个性化;第二次升级引入文本算法以及在线排序模型。


5. 数据赋能服务市场


5.1背景介绍

服务市场是面向淘系商家提供多样化服务的交易平台,目前覆盖淘系活跃卖家90%以上。其特点是:用户访问频次低、访问路径短、行为少,订购呈现周期性。原来的服务市场千人一面,不能很好匹配商家实际需求,导购效率较低。

为解决以上问题,我们设计了服务市场个性化框架(如下图),在个性化搜索和推荐场景中取得了显著的效果。其中搜索点击率提升10%,空结果率降低400%;千次展示成交数提升20%;推荐点击提升90%,千次展示成交数提升200%,转化率比服务市场整体高70%。

image
个性化导购框架

框架分为在线计算和离线计算,在线计算负责实时的商家行为分析,商品召回,个性化排序;离线部分负责商家/服务特征更新,订购模型训练以及候选商品池计算。

image
多样化的个性化推荐算法场景

5.2关键技术点

1.实时偏好识别

服务市场的用户访问频次低,识别用户的实时偏好有助于更准确的匹配用户需求。实时偏好包括实时商品偏好和实时类目偏好两个维度,使用时间衰减累计+用户实时访问反馈调整的方式来构建用户实时偏好模型。在实际使用时,根据历史累计的数据选取TopN产生实时偏好。

2.匹配召回

服务市场搜索召回面临问题:搜索无结果、搜索结果相关性不高以及搜索结果不够优质。针对上述问题,使用核心词抽取和query扩展对原query进行语义分析和补充。包括:基于语义embedding对搜索词进行自适应分词和向量化表示;为保证核心词与原query语义相似,综合语义单元的类目分布熵、与原query的邻接熵,与原query类目匹配度进行核心词抽取;为了扩大query召回,根据用户搜索补充了与原query相关的其他搜索核心词。补充后的搜索词大幅降低了搜索无结果率,搜素点击率和转化率也得到明显提升。个性化推荐召回以实时商品偏好,实时类目偏好,近期搜索,历史订购商品为基础,配合相似商品,搭配商品,类目优质商品进行扩大召回,从而构建个性化推荐的优质多样的商品池。

3.模型排序

个性化推荐的模型排序部分负责对召回的商品池结合当前商家店铺和商家行为特征进行个性化排序针。对特定的排序模型组装合适的模型特征(包括单一特征,组合交叉特征,以及ID类特征等),然后根据CTR/CVR模型生成预测分数;同时结合商家订购服务的特点,以及推荐多样性等策略的考虑,对分数进行重排。

原文链接

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
10天前
|
机器学习/深度学习 传感器 人工智能
人工智能与机器学习:改变未来的力量####
【10月更文挑战第21天】 在本文中,我们将深入探讨人工智能(AI)和机器学习(ML)的基本概念、发展历程及其在未来可能带来的革命性变化。通过分析当前最前沿的技术和应用案例,揭示AI和ML如何正在重塑各行各业,并展望它们在未来十年的潜在影响。 ####
70 27
|
23天前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
42 12
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
117 4
|
1天前
|
存储 机器学习/深度学习 人工智能
科技云报到:人工智能时代“三大件”:生成式AI、数据、云服务
科技云报到:人工智能时代“三大件”:生成式AI、数据、云服务
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
95 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
24天前
|
机器学习/深度学习 人工智能 算法
探索人工智能与机器学习的融合之路
在本文中,我们将探讨人工智能(AI)与机器学习(ML)之间的紧密联系以及它们如何共同推动技术革新。我们将深入分析这两种技术的基本概念、发展历程和当前的应用趋势,同时讨论它们面临的挑战和未来的发展方向。通过具体案例研究,我们旨在揭示AI与ML结合的强大潜力,以及这种结合如何为各行各业带来革命性的变化。
37 0
|
1月前
|
机器学习/深度学习 人工智能 自动驾驶
揭秘AI:机器学习如何改变我们的世界
在这篇文章中,我们将深入探讨机器学习如何改变我们的世界。从自动驾驶汽车到智能医疗诊断,机器学习正在逐步渗透到我们生活的每一个角落。我们将通过实例和代码示例,揭示机器学习的工作原理,以及它如何影响我们的生活。无论你是科技爱好者,还是对人工智能充满好奇的普通读者,这篇文章都将为你打开一扇新的大门,带你走进机器学习的世界。
34 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
人工智能与机器学习:解锁数据洞察力的钥匙
人工智能与机器学习:解锁数据洞察力的钥匙
|
1月前
|
机器学习/深度学习 数据采集 人工智能
自动化测试的未来:AI与机器学习的融合之路
【10月更文挑战第41天】随着技术的快速发展,软件测试领域正经历一场由人工智能和机器学习驱动的革命。本文将探讨这一趋势如何改变测试流程、提高测试效率以及未来可能带来的挑战和机遇。我们将通过具体案例分析,揭示AI和ML在自动化测试中的应用现状及其潜力。
46 0