带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)

简介: 带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(3)

带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(2) https://developer.aliyun.com/article/1246903?groupCode=taobaotech



在Unilm框架中,前一层的输出通过参数矩阵,,线性映射到(querys),(keys),(values)元组,隐层矩阵决定当前词语对是否可以互相“关注”。最后计算出self-attention head:


image.png


tricks:


Unilm模型通常以“字”作为基本输入单元,因为“字”的数据规模小、意义丰富, 模型泛化能力更强。但是, 我们在实验中发现中文内容生成常常会遇到生成不完整的问题,如“秋冬季新款女装,宽松直筒休闲裤,显瘦,修身,不起球,不掉” 这里应该是不掉色, 我们使用了“字”作为基本单元, 模型泛化能力强了, 但是生成效果有所下降。因此,我们构建了结合“字”与“词”的模式, 使得输入embedding变短,处理速度更快, 同时在文本生成任务上, 缓解了Exposure Bias问题。词义的不确定性更低,降低建模复杂度, 提升生成质量。


实验结果评估


我们在调研了多个业界内容生成工具评估指标后,结合淘宝Push智能生成业务总结了以下几个方面的评估指标:


1.表达相关性。主要看生成内容是否与切题,是否与用户输入标签相关。该指标可借鉴机器翻译常用评估指标BLEU进行评估。BLEU计算生产文本与关键词中共同n-gram数量计算两者相似度。


image.png


2.表达通顺性。生成内容是否通顺,是否与人工生成内容质量齐平。该指标主要通过人工评估文案质量,构建相应质量打分模型进行评估。


3.表达创新性,评估生成内容与训练样本的重合度。其中,与表达丰富度对应的主题相关 n-gram多样性实验结果如下。(M*代表不同模型,bs表示beam search的beam大小),数字越大表示内容丰富度越高。


image.png



带你读《2022技术人的百宝黑皮书》——淘宝Push智能文案生成(4) https://developer.aliyun.com/article/1246901?groupCode=taobaotech


相关文章
|
4月前
|
消息中间件 人工智能 Apache
阿里云两大 AI 原生实践荣获 2025 年度 OSCAR “开源+”典型案例
恭喜阿里云微服务引擎 MSE、Apache RocketMQ for AI 获权威认可!
330 50
|
5月前
|
存储 大数据 Unix
Python生成器 vs 迭代器:从内存到代码的深度解析
在Python中,处理大数据或无限序列时,迭代器与生成器可避免内存溢出。迭代器通过`__iter__`和`__next__`手动实现,控制灵活;生成器用`yield`自动实现,代码简洁、内存高效。生成器适合大文件读取、惰性计算等场景,是性能优化的关键工具。
314 2
|
11月前
|
人工智能 文字识别 计算机视觉
HarmonyOS NEXT AI基础视觉服务-文字识别
本案例展示了一款基于AI基础视觉服务的文字识别应用,通过调用设备相机拍摄照片并识别图片中的文字内容。主要实现步骤包括:1) 导入所需功能模块;2) 调用相机获取图片URI;3) 将图片转换为可识别的像素图;4) 配置视觉识别参数并执行文字识别;5) 构建界面组件,实现拍照与结果显示交互。核心要点涵盖相机权限、图像格式兼容及结构化识别结果处理,完整代码整合了各功能模块的调用流程,确保功能顺畅运行。
|
算法 程序员
程序设计的五个步骤
程序的设计过程,并不是立刻就进行代码设计,一般来讲包括设置文件的存放位置、说明书的设计、代码设计、程序测试、程序调试、注释说明。
1297 6
|
存储 JavaScript 算法
(html在线预览cad图纸插件)网页CAD绘制条形码、二维码的教程
本文介绍了如何在mxcad中绘制条形码和二维码。对于条形码,首先根据应用场景选择合适的编码标准(如CODE39、EAN13等),通过编码规则将数据转换为二进制,并利用`McDbHatch`绘制条和空的组合,同时支持自定义实体及属性管理。 对于二维码,因其能存储更多信息且具备更强纠错能力,采用开源库QRCode.js进行编码处理,再通过`McDbHatch`绘制黑白矩阵,同样封装成自定义实体以便管理和扩展。文中还给出了完整的绘制流程与效果展示,包括创建二维码对象、设置参数、调用绘制方法以及最终的效果图。整个过程体现了灵活运用API与第三方库来实现复杂图形绘制的能力。
|
数据采集 前端开发 JavaScript
捕捉页面的关键元素:用CSS选择器与Puppeteer自动抓取
本文介绍了如何使用 Puppeteer 结合 CSS 选择器抓取动态网页中的关键元素,以亚航网站的特价机票信息为例,通过设置代理 IP、User-Agent 和 Cookie 等技术手段,有效提升爬虫策略,实现高效、稳定的爬取。
398 5
捕捉页面的关键元素:用CSS选择器与Puppeteer自动抓取
|
人工智能 自然语言处理
详解:天宫ai官方网站_天宫官网ai入口是什么
天宫AI,正如其名,是昆仑万维精心打造的一款大型语言模型,目标直指 OpenAI 的 ChatGPT,立志成为中文 AI 领域的佼佼者! 其官网 tiangong.cn 已经敞开大门,迎接探索者们。
|
NoSQL Ubuntu MongoDB
在Ubuntu 16.04上安装和保护MongoDB的方法
在Ubuntu 16.04上安装和保护MongoDB的方法
258 1
|
人工智能 安全 API
【LangChain系列】第十篇:数据保护简介及实践
【5月更文挑战第24天】本文探讨了在使用大型语言模型时保护个人数据的重要性,特别是涉及敏感信息如PII(个人可识别信息)的情况。为了降低数据泄露风险,文章介绍了数据匿名化的概念,通过在数据进入LLM前替换敏感信息。重点讲解了Microsoft的Presidio库,它提供了一个可定制的文本匿名化工具。此外,文章还展示了如何结合LangChain库创建一个安全的匿名化流水线,包括初始化匿名器、添加自定义识别器和操作符,以及在问答系统中集成匿名化流程。通过这种方式,可以在利用LLMs的同时保护数据隐私。
613 0