带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3) https://developer.aliyun.com/article/1246902?groupCode=taobaotech



优化迭代


文案生成重复问题


生成模型一般由编码器和解码器两部分构成,编码器主要用于分析输入序列抽取隐层表达,解码器用于生成输出序列。其中beam_search是常用的内容生成解码方法之一。但是,由于beam search在解码过程中不断缩小搜索域范围,虽然能够大大减少计算开销,但是也存在很多明显弊端,比如数据下溢、倾向于生产短序列、生产内容单


一、容易出现重复等等。我们通过采用分组生成同时加入惩罚项的方法优化算法--Diverse Beam Search。将beam再分组,引入累积多样性保留每个时间步使用的相同单词的数量,表明总体上的差异。该方法有效缓解了生产内容重复问题。


image.png


通过引入惩罚项可以增强文本多样性,但不能完全解决生成重复问题。而SimHash是一种快速估计两组数据相似程度的技术,Google抓取工具使用该算法来查找附近重复的页面[4]。因此我们在生成结果后又加入了SimHash方法去重,该方法通过为两个文案生成向量指纹再比较两个指纹的海明距离。可以有效去除重复文本。


离线试验对比结果表明,通过实现batch beam search算法,使得生成模型可并行解码离线解码时间从3s降低0.7s,同时加入多样性惩罚项Disverse beam search和Simhash去重,最多可同时生成225+条可用文案内容。



带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5) https://developer.aliyun.com/article/1246900?groupCode=taobaotech

相关文章
|
前端开发
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(4)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(4)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(4)
|
自然语言处理
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(1)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(1)
150 0
|
机器学习/深度学习 搜索推荐 数据处理
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(7)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(7)
100 0
|
数据采集 自然语言处理 算法
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2)
114 0
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5)
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
110 0
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(10)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(10)
|
存储 JavaScript 前端开发
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(11)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(11)
103 0
|
前端开发
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(15)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(15)