带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2) https://developer.aliyun.com/article/1246903?groupCode=taobaotech



在Unilm框架中,前一层的输出通过参数矩阵,,线性映射到(querys),(keys),(values)元组,隐层矩阵决定当前词语对是否可以互相“关注”。最后计算出self-attention head:


image.png


tricks:


Unilm模型通常以“字”作为基本输入单元,因为“字”的数据规模小、意义丰富, 模型泛化能力更强。但是, 我们在实验中发现中文内容生成常常会遇到生成不完整的问题,如“秋冬季新款女装,宽松直筒休闲裤,显瘦,修身,不起球,不掉” 这里应该是不掉色, 我们使用了“字”作为基本单元, 模型泛化能力强了, 但是生成效果有所下降。因此,我们构建了结合“字”与“词”的模式, 使得输入embedding变短,处理速度更快, 同时在文本生成任务上, 缓解了Exposure Bias问题。词义的不确定性更低,降低建模复杂度, 提升生成质量。


实验结果评估


我们在调研了多个业界内容生成工具评估指标后,结合淘宝Push智能生成业务总结了以下几个方面的评估指标:


1.表达相关性。主要看生成内容是否与切题,是否与用户输入标签相关。该指标可借鉴机器翻译常用评估指标BLEU进行评估。BLEU计算生产文本与关键词中共同n-gram数量计算两者相似度。


image.png


2.表达通顺性。生成内容是否通顺,是否与人工生成内容质量齐平。该指标主要通过人工评估文案质量,构建相应质量打分模型进行评估。


3.表达创新性,评估生成内容与训练样本的重合度。其中,与表达丰富度对应的主题相关 n-gram多样性实验结果如下。(M*代表不同模型,bs表示beam search的beam大小),数字越大表示内容丰富度越高。


image.png



带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4) https://developer.aliyun.com/article/1246901?groupCode=taobaotech


相关文章
|
机器学习/深度学习 搜索推荐 数据处理
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(7)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(7)
100 0
|
自然语言处理 算法
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5)
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
110 0
|
数据采集 自然语言处理 算法
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2)
114 0
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(1)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(1)
150 0
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(14)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(14)
|
存储 JavaScript 前端开发
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(11)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(11)
103 0
|
前端开发
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(5)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(5)
|
JavaScript
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(12)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(12)