带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3) https://developer.aliyun.com/article/1246902?groupCode=taobaotech
优化迭代
文案生成重复问题
生成模型一般由编码器和解码器两部分构成,编码器主要用于分析输入序列抽取隐层表达,解码器用于生成输出序列。其中beam_search是常用的内容生成解码方法之一。但是,由于beam search在解码过程中不断缩小搜索域范围,虽然能够大大减少计算开销,但是也存在很多明显弊端,比如数据下溢、倾向于生产短序列、生产内容单
一、容易出现重复等等。我们通过采用分组生成同时加入惩罚项的方法优化算法--Diverse Beam Search。将beam再分组,引入累积多样性保留每个时间步使用的相同单词的数量,表明总体上的差异。该方法有效缓解了生产内容重复问题。
通过引入惩罚项可以增强文本多样性,但不能完全解决生成重复问题。而SimHash是一种快速估计两组数据相似程度的技术,Google抓取工具使用该算法来查找附近重复的页面[4]。因此我们在生成结果后又加入了SimHash方法去重,该方法通过为两个文案生成向量指纹再比较两个指纹的海明距离。可以有效去除重复文本。
离线试验对比结果表明,通过实现batch beam search算法,使得生成模型可并行解码离线解码时间从3s降低0.7s,同时加入多样性惩罚项Disverse beam search和Simhash去重,最多可同时生成225+条可用文案内容。
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5) https://developer.aliyun.com/article/1246900?groupCode=taobaotech