【喜讯】阿里巴巴文娱生成式信息抽取论文中选ACL

简介: 是由国际计算语言学协会主办的自然语言处理领域最负盛名的顶级学术会议,每年举办一次,其接收的论文覆盖了对话系统、语义分析、摘要生成、信息抽取、问答系统、语言模型、机器翻译、情感计算、知识图谱等自然语言处理领域的众多研究方向。

文娱妹导读

ACL会议

Annual Meeting of the Association for Computational Linguistics

是由国际计算语言学协会主办的自然语言处理领域最负盛名的顶级学术会议,每年举办一次,其接收的论文覆盖了对话系统、语义分析、摘要生成、信息抽取、问答系统、语言模型、机器翻译、情感计算、知识图谱等自然语言处理领域的众多研究方向。



Seq2Path: Generating Sentiment Tuples as Paths of a Tree


论文简介

生成式信息抽取是近年来NLP领域的研究热点,由于其良好的表现以及end-to-end的特性已经成为了很多信息抽取相关任务的新范式。目前主流的Seq2Seq信息抽取框架面临多个元组(tuple)的情形时会在解码阶段强行引入tuple之间的序列约束,本文针对这一缺点,提出了一种Seq2Path的方法。具体来说,将每个需要识别的tuple视为树结构中的独立路径(path),在训练阶段拟合average loss over paths;在预测阶段,采用beam search with constrained decoding进行解码,并通过引入一个判别token来自动选择正确的path。本文以细粒度情感分析(ABSA)任务为例,在ABSA五个子任务对应的公开数据集上进行了实验,结果充分验证了本文方法的有效性。目前文本方法已经在阿里文娱大脑(北斗星)情感计算相关场景中得到了应用。


图片.png


作者


茅越

沈一

杨竞潮

朱晓颖

蔡龙军

(作者撰文时均来自阿里巴巴文娱AI大脑北斗星团队)


AI阿里文娱AI大脑北斗星团队


通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。

相关文章
|
4天前
|
机器学习/深度学习 搜索推荐 知识图谱
CIKM 2024:两位本科生一作,首次提出持续学习+少样本知识图谱补全
在信息爆炸时代,知识图谱的构建和维护面临数据稀疏与动态变化等挑战。CIKM 2024会议上,两位本科生提出将**持续学习与少样本学习结合**的新方法,有效应对这些难题。该方法通过持续学习框架适应动态变化,并利用少样本学习提高数据稀疏场景下的补全效果,显著提升了知识图谱的完整性和准确性。实验结果表明,此方法在准确性、鲁棒性和泛化能力上均有显著优势,为知识图谱补全领域带来了新思路。
60 40
|
3月前
|
机器学习/深度学习 数据采集 人工智能
【紧跟AI浪潮】深度剖析:如何在大模型时代精准捕获用户心声——提高召回率的实战秘籍
【10月更文挑战第5天】在深度学习领域,大型模型常面临召回率不足的问题,尤其在信息检索和推荐系统中尤为关键。本文通过具体代码示例,介绍如何提升大模型召回率。首先,利用Pandas进行数据预处理,如清洗和特征工程;其次,选择合适的模型架构,如使用PyTorch构建推荐系统;再者,优化训练策略,采用合适的损失函数及正则化技术;此外,选择恰当的评估指标,如召回率和F1分数;最后,通过后处理优化结果展示。以上方法不仅提升召回率,还增强了模型整体性能。
117 0
|
机器学习/深度学习 人工智能 大数据
【重磅】文娱技术喜提多篇ACM MM论文
2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。
1129 0
【重磅】文娱技术喜提多篇ACM MM论文
|
6月前
|
存储 人工智能
深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布
【7月更文挑战第27天】清华大学、西湖大学与香港中文大学联合发布的论文深入探讨了RAG(Retrieval-Augmented Generation)大模型在处理信息时遇到的知识冲突问题及其解决方案。RAG模型通过结合预训练语言模型与外部知识库生成准确内容,但会面临上下文记忆、上下文间及内部记忆冲突。研究提出了基于上下文感知的记忆管理、多上下文推理及知识选择权衡等方法来缓解这些问题。尽管取得了进展,但在计算资源需求、解决方案效果验证及模型鲁棒性等方面仍有挑战待克服。[论文](https://arxiv.org/abs/2403.08319)
166 3
|
8月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。 内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。
57 0
|
8月前
|
人工智能 编解码 自然语言处理
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货
|
8月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
99 0
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
149 0
|
机器学习/深度学习 搜索推荐 数据安全/隐私保护
高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer
高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer
136 0
|
自然语言处理 达摩院 数据格式
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
带你读《达摩院智能客服知识运营白皮书》——3.2 如何进行知识收集?--基于知识来源收集候选知识
154 0