如何用算法赋能素材治理？和虚假劣质信息say no-阿里云开发者社区

小叽导读：商品素材包括商品商标、样图、宣传语等信息，是商家营销信息的表达，是消费者购物的重要参考指标，也是转化为成交的关键。但由于平台商品品类繁多、数量巨大，难免有些劣质素材影响消费者的判断乃至购物体验。因此，我们决定针对过度营销、虚假让利等劣质素材展开打击攻坚战。下面，我们一起来看在这场战役中如何让机器学习赋能素材治理？

项目简介

素材是大促中非常重要的要素，素材包括商品的信息，核心利益点、卖点等，通过素材把商品自身信息、竞争力、权益等信息传递给消费者，是消费者了解商品名称、商品特征以及相关优惠的重要途径。

在新零售的大趋势下，一方面国家给予电商行业制定的“电商法”日趋完善，商家虚假、夸大宣传等易触碰到国家法律，有较大的违规风险；另一方面，在消费升级时代的宏观环境中，顾客对消费质量的要求标准也越来越高了，劣质素材极易带给消费者不好的购物体验，进而影响到最终的成交。基于此，我们紧急启动了劣质素材挖掘项目，机器学习赋能素材治理，规避平台风险，同时也希望可以给消费者带来更好的购物体验。

整个项目的价值主要体现在以下几个方面：

平台侧：商家虚假、夸大宣传极易违规，该方案可以规避由此带来的法律及舆论风险，同时也会提升消费者浏览转化率；

商家端：挖掘劣质素材，规范商家填写内容，使商家大促素材可以沉淀到日常活动使用，实现商家商品素材“最多填一次”；

消费者端：给消费者更好的浏览体验，保障消费者看到的优惠都是实实在在可享受的优惠。

影响面

各类劣质素材已经极大地影响了消费者的浏览、购买体验，另一方面也会给平台带来风险甚至引发舆情故障，作为用户体验的捍卫者和平台风险的把控者，我们对劣质素材0容忍，挖掘劣质素材，push商家修改素材，后续针对未在规定时间修改的商品进行商品素材清退，保障消费者浏览和购买体验，降低平台风险。

识别分类

广义来讲，我们通常将劣质素材分为三大类：

异常短标题

商品短标题包含6-10个字，主要描述商品名称、商品属性以及商品基本特征等信息，但是异常短标题会包含各种各样的异常信息，甚至是一些诱导点击的内容，严重影响消费者的购买体验，如下图：

异常利益点

商品利益点主要描述商品优惠、折扣等相关信息，同样的劣质利益点会包含各式各样的劣质信息，例如“啊啊啊啊啊啊”“待补充的利益点”。甚至是一些诱导购买的内容，例如“大牌让利700000元”“亏本处理卖完下架”等等，影响消费者的购物体验，同时可能会给平台带来风险，如下图：

过度宣传

商家报名了全店五折活动成为“全店五折商家”后，可以在利益点中透出“全场五折秒杀”“全店低于五折”“全场5折封顶”等吸引消费者浏览购买。但是有部分商家并未报名成为“全店五折商家”，而且商家报名的大促商品里至少有一款商品非五折，但是商家发布商品的利益点透出了“全店五折”的文案，商家涉及虚假宣传并可能引发后续舆情风险，如下图：

解决方案

挑战及应对

正所谓“文无第一，武无第二”，除了一些很明显劣质短标题之外，很多类型的短标题似乎难以准确定义，例如“领取无门槛优惠券”“热卖低于成本价”“XXXX旗舰店”等等，不同的人可能会有不同的理解。

解决方案：和招商以及会场的业务同学沟通，确定劣质短标题及劣质利益点类型，提取不同劣质类型的特征进行识别以及分类。

双十一期间报名的活动素材数量较大，而且对时效性及准确性要求都较高，需要每天产出数据，并且业务验收通过后才能进行清退。

解决方案：数据同步到ODPS进行处理，满足高时效性需求。

双十一期间对商家素材清退必须做到可解释性非常强，同时没有业务线小二标注异常样本的支持，这就需要算法的准确率要较高，在人工标注较少的基础上产出的数据要较为准确。

解决方案：选用置信度较高，可解释性较强的算法，如TF-IDF模型，FastText模型，编辑距离相似度，余弦距离相似度，最长公共子序列等，保证算法识别准确率。

技术方案

整个系统由输入层、数据预处理层、模型层、结果层、处理层组成。

输入层：根据数据来源的不同自动选择不同的数据读取方式：针对素材提交的源系统采取消息同步或者DB同步的方案；针对离线素材的读取采取ODPS同步的方案；针对图片素材的读取采用图像OCR技术进行素材提取；

数据预处理层：针对输入层识别到的数据进行数据预处理，通过NLP技术将商品标题、商品利益点等长文本分词成一个个的实体词，通过NLP技术将分词后的实体词进行词性标注；

模型层（识别模块）：识别模块包括编辑距离相似度模型、余弦距离相似度模型、TF-IDF模型。

模型层（分类模块）：分类模块包括最长公共子串模型、最长公共子序列模型、FastText模型。

结果层：基于模型层的分类结果，将识别结果标注为劣质短标题（如商品短标题6-8、待优化的标题等），利益点短标题（实惠、便宜等），宣传语短标题（特价仅此一天、抢购一触即发等），大促短标题（双12年终低价、双十一历史低价等），劣质利益点（此处需要修改、共和国海关和等），过度宣传（全场五折再五折、亏本处理卖完下架等）等。

处理层：根据结果数据来源的不同自动选择不同的处理方式：针对离线的结果数据，进行监控告警，push商家修改素材，后续针对未在规定时间内修改素材的商品进行素材清退处理；针对在线的结果数据，进行素材同步拦截，不外化具体原因，推动商家规范填写素材内容，使商家大促素材可以沉淀到日常活动使用，实现商家商品素材“最多填一次”。

算法模型

通过计算商品短标题和长标题的相似度来识别异常短标题，通过计算商品利益点和劣质短标题的相似度来识别异常利益点。使用TF-IDF模型、编辑距离相似度、余弦距离相似度、欧式距离相似度等的综合相似度来识别劣质短标题，设定阈值，选择相似度低于阈值的作为异常短标题，对异常短标题进行进一步训练，运用fastText模型，对识别到的劣质短标题进行分类：最终分成劣质、利益点、宣传语、文本不相符、店铺名称等类型。

TF-IDF模型

TF-IDF模型的核心思想就是：将自然语言文本转化成词向量，其中词向量是指对于词典D的任意词w，指定一个固定实值的向量v（m），v（m）就称为单词w的词向量，如果这两句话的用词越相似，它们的内容就应该更为相似，所以我们可以从词频入手，组建实体词的词向量，进而通过向量来计算其相似度。

那么如何计算两个向量的相似程度呢？我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。假设短标题向量是【x1，y1】，标题向量是【x2，y2】，根据余弦定理，有如下公式：

公式表征的含义如下图所示：

我们将这种计算方法推广到n维向量，假定A和B是两个n维向量，A是 [A1, A2,..., An] ，B是 [B1, B2, ..., Bn] ，则A与B的夹角θ的余弦等于：

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似；余弦值越接近0，说明夹角越接近180度，也就是说两个向量越不相关。

来看一个例子：

商品短标题（sub_title）：垂褶针织恤衫，商品标题（title）：ports宝姿垂褶女装针织T恤衫。

分词→sub_title：垂/褶/针织/恤衫,title：ports/宝姿/垂/褶/女装/针织/T恤衫。

写出词向量维度：共8维词向量→ports、宝姿、垂、褶、女装、针织、恤衫、T恤衫。

计算词频并写出词频向量->sub_title：(0，0，1，1，0，1，1，0),title：(1、1、1、1、1、1、0、1)。

根据余弦相似度的计算方式，我们可以计算出上述短标题和标题的相似度是0.57，两者的夹角约为55度，较为相似。

fastText 模型

fastText 模型的输入是一个词的序列，也就是一段文本，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。

首先进行训练样本标注，如下图：

然后进行模型训练并预测结果：

编辑距离相似度

编辑距离算法是指，两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同，许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符，定义函数edit（i,j），它表示字符串s1的长度为i的子串到字符串s2的长度为j的子串的编辑距离。

如果 i == 0 且 j ==0，edit(i, j) = 0，表示如果两个都是空序列，那编辑距离为0；

如果 i == 0 且 j> 0，edit(i, j) = j，表示如果s1是空序列，s2序列的长度为j，那么编辑距离就是s2的长度j；

如果 i > 0 且j == 0，edit(i, j) = i，表示如果s2是空序列，s1序列的长度为i，那么编辑距离就是s2的长度i；

如果 i ≥1 且 j ≥ 1 ，edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1,j-1) + f(i, j) }，表示字符串i向字符串j转变的三种方式（自左向右依次为在字符串A的末尾删除一个字符，在字符串A的末尾添加一个与字符串B的末尾相同的字符，将字符串A末尾的字符替换为字符串B末尾的字符），然后分别计算其编辑距离，最后取其中的最小值作为编辑距离

计算相似度=1-编辑距离/Math.Max(str1.length,str2.length)。

识别效果