带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

2023-06-12 316

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3) https://developer.aliyun.com/article/1246902?groupCode=taobaotech

优化迭代

文案生成重复问题

生成模型一般由编码器和解码器两部分构成，编码器主要用于分析输入序列抽取隐层表达，解码器用于生成输出序列。其中beam_search是常用的内容生成解码方法之一。但是，由于beam search在解码过程中不断缩小搜索域范围，虽然能够大大减少计算开销，但是也存在很多明显弊端，比如数据下溢、倾向于生产短序列、生产内容单

一、容易出现重复等等。我们通过采用分组生成同时加入惩罚项的方法优化算法--Diverse Beam Search。将beam再分组，引入累积多样性保留每个时间步使用的相同单词的数量，表明总体上的差异。该方法有效缓解了生产内容重复问题。

通过引入惩罚项可以增强文本多样性，但不能完全解决生成重复问题。而SimHash是一种快速估计两组数据相似程度的技术，Google抓取工具使用该算法来查找附近重复的页面[4]。因此我们在生成结果后又加入了SimHash方法去重,该方法通过为两个文案生成向量指纹再比较两个指纹的海明距离。可以有效去除重复文本。

离线试验对比结果表明，通过实现batch beam search算法，使得生成模型可并行解码离线解码时间从3s降低0.7s，同时加入多样性惩罚项Disverse beam search和Simhash去重，最多可同时生成225+条可用文案内容。

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5) https://developer.aliyun.com/article/1246900?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

大淘宝技术

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

大淘宝技术

热门文章

最新文章

相关电子书