如何用算法赋能素材治理?和虚假劣质信息say no-阿里云开发者社区

开发者社区> 阿里机器智能> 正文

如何用算法赋能素材治理?和虚假劣质信息say no

简介: 下面,我们一起来看在这场战役中如何让机器学习赋能素材治理?

小叽导读:商品素材包括商品商标、样图、宣传语等信息,是商家营销信息的表达,是消费者购物的重要参考指标,也是转化为成交的关键。但由于平台商品品类繁多、数量巨大,难免有些劣质素材影响消费者的判断乃至购物体验。因此,我们决定针对过度营销、虚假让利等劣质素材展开打击攻坚战。下面,我们一起来看在这场战役中如何让机器学习赋能素材治理?


项目简介

素材是大促中非常重要的要素,素材包括商品的信息,核心利益点、卖点等,通过素材把商品自身信息、竞争力、权益等信息传递给消费者,是消费者了解商品名称、商品特征以及相关优惠的重要途径。

在新零售的大趋势下,一方面国家给予电商行业制定的“电商法”日趋完善,商家虚假、夸大宣传等易触碰到国家法律,有较大的违规风险;另一方面,在消费升级时代的宏观环境中,顾客对消费质量的要求标准也越来越高了,劣质素材极易带给消费者不好的购物体验,进而影响到最终的成交。基于此,我们紧急启动了劣质素材挖掘项目,机器学习赋能素材治理,规避平台风险,同时也希望可以给消费者带来更好的购物体验。

整个项目的价值主要体现在以下几个方面:

平台侧:商家虚假、夸大宣传极易违规,该方案可以规避由此带来的法律及舆论风险,同时也会提升消费者浏览转化率;

商家端:挖掘劣质素材,规范商家填写内容,使商家大促素材可以沉淀到日常活动使用,实现商家商品素材“最多填一次”;

消费者端:给消费者更好的浏览体验,保障消费者看到的优惠都是实实在在可享受的优惠。

影响面

各类劣质素材已经极大地影响了消费者的浏览、购买体验,另一方面也会给平台带来风险甚至引发舆情故障,作为用户体验的捍卫者和平台风险的把控者,我们对劣质素材0容忍,挖掘劣质素材,push商家修改素材,后续针对未在规定时间修改的商品进行商品素材清退,保障消费者浏览和购买体验,降低平台风险。

image.png

识别分类

广义来讲,我们通常将劣质素材分为三大类:

异常短标题

商品短标题包含6-10个字,主要描述商品名称、商品属性以及商品基本特征等信息,但是异常短标题会包含各种各样的异常信息,甚至是一些诱导点击的内容,严重影响消费者的购买体验,如下图:

image.png

异常利益点

商品利益点主要描述商品优惠、折扣等相关信息,同样的劣质利益点会包含各式各样的劣质信息,例如“啊啊啊啊啊啊”“待补充的利益点”。甚至是一些诱导购买的内容,例如“大牌让利700000元”“亏本处理卖完下架”等等,影响消费者的购物体验,同时可能会给平台带来风险,如下图:

image.png

过度宣传

商家报名了全店五折活动成为“全店五折商家”后,可以在利益点中透出“全场五折秒杀”“全店低于五折”“全场5折封顶”等吸引消费者浏览购买。但是有部分商家并未报名成为“全店五折商家”,而且商家报名的大促商品里至少有一款商品非五折,但是商家发布商品的利益点透出了“全店五折”的文案,商家涉及虚假宣传并可能引发后续舆情风险,如下图:

image.png

解决方案

挑战及应对

正所谓“文无第一,武无第二”,除了一些很明显劣质短标题之外,很多类型的短标题似乎难以准确定义,例如“领取无门槛优惠券”“热卖低于成本价”“XXXX旗舰店”等等,不同的人可能会有不同的理解。

解决方案:和招商以及会场的业务同学沟通,确定劣质短标题及劣质利益点类型,提取不同劣质类型的特征进行识别以及分类。

双十一期间报名的活动素材数量较大,而且对时效性及准确性要求都较高,需要每天产出数据,并且业务验收通过后才能进行清退。

解决方案:数据同步到ODPS进行处理,满足高时效性需求。

双十一期间对商家素材清退必须做到可解释性非常强,同时没有业务线小二标注异常样本的支持,这就需要算法的准确率要较高,在人工标注较少的基础上产出的数据要较为准确。

解决方案:选用置信度较高,可解释性较强的算法,如TF-IDF模型,FastText模型,编辑距离相似度,余弦距离相似度,最长公共子序列等,保证算法识别准确率。

技术方案

image.png

整个系统由输入层、数据预处理层、模型层、结果层、处理层组成。

输入层:根据数据来源的不同自动选择不同的数据读取方式:针对素材提交的源系统采取消息同步或者DB同步的方案;针对离线素材的读取采取ODPS同步的方案;针对图片素材的读取采用图像OCR技术进行素材提取;

数据预处理层:针对输入层识别到的数据进行数据预处理,通过NLP技术将商品标题、商品利益点等长文本分词成一个个的实体词,通过NLP技术将分词后的实体词进行词性标注;

模型层(识别模块):识别模块包括编辑距离相似度模型、余弦距离相似度模型、TF-IDF模型。

模型层(分类模块):分类模块包括最长公共子串模型、最长公共子序列模型、FastText模型。

结果层:基于模型层的分类结果,将识别结果标注为劣质短标题(如商品短标题6-8、待优化的标题等),利益点短标题(实惠、便宜等),宣传语短标题(特价仅此一天、抢购一触即发等),大促短标题(双12年终低价、双十一历史低价等),劣质利益点(此处需要修改、共和国海关和等),过度宣传(全场五折再五折、亏本处理卖完下架等)等。

处理层:根据结果数据来源的不同自动选择不同的处理方式:针对离线的结果数据,进行监控告警,push商家修改素材,后续针对未在规定时间内修改素材的商品进行素材清退处理;针对在线的结果数据,进行素材同步拦截,不外化具体原因,推动商家规范填写素材内容,使商家大促素材可以沉淀到日常活动使用,实现商家商品素材“最多填一次”。

算法模型

通过计算商品短标题和长标题的相似度来识别异常短标题,通过计算商品利益点和劣质短标题的相似度来识别异常利益点。使用TF-IDF模型、编辑距离相似度、余弦距离相似度、欧式距离相似度等的综合相似度来识别劣质短标题,设定阈值,选择相似度低于阈值的作为异常短标题,对异常短标题进行进一步训练,运用fastText模型,对识别到的劣质短标题进行分类:最终分成劣质、利益点、宣传语、文本不相符、店铺名称等类型。

TF-IDF模型

TF-IDF模型的核心思想就是:将自然语言文本转化成词向量,其中词向量是指对于词典D的任意词w,指定一个固定实值的向量v(m),v(m)就称为单词w的词向量,如果这两句话的用词越相似,它们的内容就应该更为相似,所以我们可以从词频入手,组建实体词的词向量,进而通过向量来计算其相似度。

那么如何计算两个向量的相似程度呢?我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。假设短标题向量是【x1,y1】,标题向量是【x2,y2】,根据余弦定理,有如下公式:

image.png

公式表征的含义如下图所示:

image.png

我们将这种计算方法推广到n维向量,假定A和B是两个n维向量,A是 [A1, A2,..., An] ,B是 [B1, B2, ..., Bn] ,则A与B的夹角θ的余弦等于:

image.png

余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似;余弦值越接近0,说明夹角越接近180度,也就是说两个向量越不相关。

来看一个例子:

商品短标题(sub_title):垂褶针织恤衫,商品标题(title):ports宝姿 垂褶女装针织T恤衫。

分词→sub_title:垂/褶/针织/恤衫,title:ports/宝姿/垂/褶/女装/针织/T恤衫。

写出词向量维度:共8维词向量→ports、宝姿、垂、褶、女装、针织、恤衫、T恤衫。

计算词频并写出词频向量->sub_title:(0,0,1,1,0,1,1,0),title:(1、1、1、1、1、1、0、1)。

根据余弦相似度的计算方式,我们可以计算出上述短标题和标题的相似度是0.57,两者的夹角约为55度,较为相似。

fastText 模型

fastText 模型的输入是一个词的序列,也就是一段文本,输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。

首先进行训练样本标注,如下图:

image.png

然后进行模型训练并预测结果:

image.png

编辑距离相似度

编辑距离算法是指,两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同,许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,定义函数edit(i,j),它表示字符串s1的长度为i的子串到字符串s2的长度为j的子串的编辑距离。

如果 i == 0 且 j ==0,edit(i, j) = 0,表示如果两个都是空序列,那编辑距离为0;

如果 i == 0 且 j> 0,edit(i, j) = j,表示如果s1是空序列,s2序列的长度为j,那么编辑距离就是s2的长度j;

如果 i > 0 且j == 0,edit(i, j) = i,表示如果s2是空序列,s1序列的长度为i,那么编辑距离就是s2的长度i;

如果 i ≥1 且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1,j-1) + f(i, j) },表示字符串i向字符串j转变的三种方式(自左向右依次为在字符串A的末尾删除一个字符,在字符串A的末尾添加一个与字符串B的末尾相同的字符,将字符串A末尾的字符替换为字符串B末尾的字符),然后分别计算其编辑距离,最后取其中的最小值作为编辑距离

计算相似度=1-编辑距离/Math.Max(str1.length,str2.length)。

识别效果

异常短标题

识别到异常短标题,并对异常短标题进行分类,分为劣质短标题、利益点短标题、宣传语短标题、店铺名称短标题,部分识别到的效果如下:

image.png

异常利益点

识别到异常利益点,并对异常利益点进行分类,分为劣质利益点和过度宣传利益点,部分识别到的效果如下:

image.png

未来展望

机器智能已经逐渐成为一个新的领域入口,在未来基于素材数据的基础上,我们会继续坚持算法技术赋能素材治理,持续结合技术、产品进行探索,在数据和知识体系上进行积累,提升会场消费者体验,保障消费者看到的都是实在可用的优惠,同时落实商家商品素材“最多填一次”。

在技术领域,我们将在生成模型、增强学习、机器阅读、情感化等方面进行持续深入,对商家素材接入机审清退,实时拦截劣质素材。

最后,欢迎有兴趣的小伙伴加入,用算法技术赋能业务质量,捍卫消费者的用户体验,在天猫双11前线迎接挑战,简历投递:guying@taobao.com。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
阿里机器智能
使用钉钉扫一扫加入圈子
+ 订阅

关于阿里的机器智能创新技术均呈现于此

官方博客
官网链接