带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4)

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3) https://developer.aliyun.com/article/1246902?groupCode=taobaotech



优化迭代


文案生成重复问题


生成模型一般由编码器和解码器两部分构成,编码器主要用于分析输入序列抽取隐层表达,解码器用于生成输出序列。其中beam_search是常用的内容生成解码方法之一。但是,由于beam search在解码过程中不断缩小搜索域范围,虽然能够大大减少计算开销,但是也存在很多明显弊端,比如数据下溢、倾向于生产短序列、生产内容单


一、容易出现重复等等。我们通过采用分组生成同时加入惩罚项的方法优化算法--Diverse Beam Search。将beam再分组,引入累积多样性保留每个时间步使用的相同单词的数量,表明总体上的差异。该方法有效缓解了生产内容重复问题。


image.png


通过引入惩罚项可以增强文本多样性,但不能完全解决生成重复问题。而SimHash是一种快速估计两组数据相似程度的技术,Google抓取工具使用该算法来查找附近重复的页面[4]。因此我们在生成结果后又加入了SimHash方法去重,该方法通过为两个文案生成向量指纹再比较两个指纹的海明距离。可以有效去除重复文本。


离线试验对比结果表明,通过实现batch beam search算法,使得生成模型可并行解码离线解码时间从3s降低0.7s,同时加入多样性惩罚项Disverse beam search和Simhash去重,最多可同时生成225+条可用文案内容。



带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(5) https://developer.aliyun.com/article/1246900?groupCode=taobaotech

相关文章
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
机器学习/深度学习 搜索推荐 算法
推荐系统离线评估方法和评估指标,以及在推荐服务器内部实现A/B测试和解决A/B测试资源紧张的方法。还介绍了如何在TensorFlow中进行模型离线评估实践。
推荐系统离线评估方法和评估指标,以及在推荐服务器内部实现A/B测试和解决A/B测试资源紧张的方法。还介绍了如何在TensorFlow中进行模型离线评估实践。
1017 0
|
8月前
|
Web App开发 网络协议 应用服务中间件
HTTP2.0 从原理到实践,保证把你治得服服帖帖!
HTTP/2 是 HTTP/1.1 的重要升级,通过多路复用、头部压缩、服务器推送等特性显著提升性能与效率。本文详细解析了 HTTP/2 的优势、配置方法及实际应用,涵盖 Nginx/Apache/IIS 配置、curl 测试工具使用,并对比 HTTP/1.1 指出其优化点。同时提醒需注意 HTTPS 支持、客户端兼容性等问题,助你高效掌握并运用 HTTP/2 技术。
930 5
HTTP2.0 从原理到实践,保证把你治得服服帖帖!
|
11月前
|
人工智能 数据可视化 安全
Manus AI 站在巨人(大模型)肩膀上的AI助手
3月6日,Manus AI震撼登场,它不仅是一个聊天机器人,更是全能AI助手。能帮你筛选简历、进行房产调研、自动编写代码和数据分析,甚至创建并部署交互式网站。创始人是中国90后肖宏,毕业于华中科技大学。目前服务器已爆满,敬请期待其强大功能。
|
人工智能 编解码
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。
1218 5
CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K
|
Java
线程池内部机制:线程的保活与回收策略
【10月更文挑战第24天】 线程池是现代并发编程中管理线程资源的一种高效机制。它不仅能够复用线程,减少创建和销毁线程的开销,还能有效控制并发线程的数量,提高系统资源的利用率。本文将深入探讨线程池中线程的保活和回收机制,帮助你更好地理解和使用线程池。
640 2
|
存储 Python 容器
python函数的返回值、嵌套方式以及函数中的变量(一)
python函数的返回值、嵌套方式以及函数中的变量(一)
907 2
|
机器学习/深度学习 自然语言处理 决策智能
8分SCI | 揭示随机森林的解释奥秘:探讨LIME技术如何提高模型的可解释性与可信度!
8分SCI | 揭示随机森林的解释奥秘:探讨LIME技术如何提高模型的可解释性与可信度!
896 1
|
自然语言处理 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(6)
393 0
|
机器学习/深度学习 自然语言处理 监控
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(8)
带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(8)
313 0