带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2)

智能文案生成算法


话术模板生成模块(模板生成)


模板生成主要依赖人工处理数据、构建模板,成本较高。由于上线时间紧凑和资源限制等问题,我们采用NLP工具挖掘模板的方式构造初版模板。这种处理方式的主要动机是运营创作文案时,通常包含一些基本属性,比如时间季节、人群、地点、活动、利益点等等,如: 一大波#品类#来袭,#人群#健康饮食....可以通过内容聚合技术挖掘这类具有统一属性的话术模板。因此话术模版生成的主要处理流程总结如下:


image.png


将获取到的Push文案数据经过低质内容过滤、删除重复项、统一规格等方式进行数据清洗,然后通过AliNLP平台提供的各类自然语言处理工具识别出文案中的关键属性,利用统一占位符${风格}、${人群受众}、${材质}等等内容填充,设定阈值过滤阈值对内容进行数据聚合,最终生成模板。


image.png

关键字生成模块(模型生成)


模型生成部分主要分为两大类,营销类Push文案以及商品个性化Push文案。由于计算资源有限,利用预训练好的模型框架,在此基础上进行fine tuning是现阶段工业界内容生成常用的做法。我们调研对比了包括Bert、Unilm、GPT等等使用范围较广的内容生产框架。简单介绍如下,Bert及其衍生的各类算法框架以Transformer为基础, 通702过Masked部分内容, 学习全局信息更新参数, 该类模型更适合于文本理解相关工作。Unilm作为Bert衍生模型通过Position Embedding+单向Masked方式突破Bert内容生成质量不佳的限制。而GPT是主结构为self-Attention的单向语言模型,模型参数超过15亿、训练耗时长,其离线对比生成效果与Unilm不相上下。因此,最终我们选择了Unilm作为基础框架。同时使用Push文案样本数据作为输入对模型进行fine tuning。模型框架如下:


image.png



相关文章
|
机器学习/深度学习 搜索推荐 数据处理
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(7)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(7)
100 0
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
110 0
|
自然语言处理 算法
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5)
|
自然语言处理
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(1)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(1)
150 0
|
编解码 算法
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(7)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(7)
|
算法 前端开发 API
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(6)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(6)
|
算法 API
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(17)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(17)
|
新零售 图形学 容器
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(9)
带你读《2022技术人的百宝黑皮书》——全景封面视频生成技术在淘宝的应用(9)