MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts 论文解读

简介: 事件检测(ED)从非结构化文本中识别和分类事件触发词,作为信息抽取的基本任务。尽管在过去几年中取得了显著进展

MUSIED: ABenchmark for Event Detection from Multi-Source Heterogeneous Informal Texts



论文:2211.13896.pdf (53yu.com)


代码:myeclipse/MUSIED: MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts (github.com)


期刊/会议:Arxiv 2022


摘要


事件检测(ED)从非结构化文本中识别和分类事件触发词,作为信息抽取的基本任务。尽管在过去几年中取得了显著进展,但大多数研究工作都集中于从正式文本(例如新闻文章、维基百科文档、财务公告)中检测事件。此外,每个数据集中的文本要么来自单一来源,要么来自多个相对同类别的来源。随着大量用户生成的文本在网络和企业内部积累,在这些非正式文本中识别有意义的事件(通常来自多个不同来源)已成为一个具有重大实用价值的问题。作为将事件检测扩展到涉及非正式和异构文本的场景的开拓性探索,我们在领先的食品服务电子商务平台中,基于用户评论、文本对话和电话对话,提出了一个新的大规模中文事件检测数据集。我们通过定量和定性检查数据样本,仔细研究了所提出数据集的文本非正规性和多源异质性特征。使用最先进的事件检测方法进行的大量实验验证了这些特征带来的独特挑战,表明多源非正式事件检测仍然是一个开放的问题,需要进一步努力。


1、简介


现有的事件抽取工作存在两个问题:1、当前的工作主要是从正式的文本中进行事件检测,如ACE2005、MEAVEN(来自Wikipedia)等。2、目标事件相关文本要么来自单一来源,要么来自多个同质来源。


为了解决这两个问题,我们将事件检测扩展到涉及非正式和异构文本的场景。我们基于中国最受欢迎的食品服务电子商务平台美团构建了一个新的大规模中国事件检测数据集,该数据集为用户提供了多种反馈食品安全问题(事件)的方式,例如发布评论和与售后人员沟通。我们从三个典型场景中收集脱敏数据:i)用户发布评论,ii)用户通过短信与售后人员沟通,以及iii)用户通过电话与售后人员交流。通过抽取用户评论、文本对话和电话对话,我们创建了一个由多源异构非正式文本组成的大规模数据集,用于事件检测(MUSIDE)。


我们的贡献可以总结如下:


  • 我们通过精心策划一个新的大规模数据集,首次将事件检测扩展到涉及非正式和异构文本的场景。


  • 使用最先进的方法进行的广泛实验验证了文本非正规性和多源异质性特征带来的独特挑战,并指出了值得探索的多个有前途的方向。


2、事件检测定义


事件:涉及参与者的特定事件(地点、时间、主题、对象等)。事件提及:描述事件的短语或句子。事件触发词:最清楚地表达事件发生的主要单词或短语。事件类型:事件的语义类。


ED通常分为两个子任务:(1)触发词识别,旨在识别事件触发词。(2) 触发词分类,旨在将识别的触发词分类为预定义的类别。这两个子任务都以micro precision、recall和F1 score进行评估。


3、数据收集和标注


316b59ff4a3a47e79dd710235c47106e.png

fd600e331d384f3b8e28717ae35d2bed.png


该模式包含21种事件类型,广泛涵盖了用户对上述情况的反馈。


4、数据分析


c694fa92ffba4de083c45f5d6c621567.png

6c51ef13bd5b4a22853c2e3cd176c4ba.png

51c895d2bbdc436fb1cd0e223456c833.png


触发词偏长、多事件、多错字的特点。


5、实验


38ce21cd14df47268ef22b5d24d8d1e8.png


80e4bc2b6aa44fccb227a2dc7c1842f6.png

92d4b5e4074a4606a6927ab8db65da20.png

1e44fad4b92f4b4680b4c4efc7174bb7.png

78e6556cdf0b4661b3fed7c61587e517.png

7edd73ec7cab485ba00e13ae41f1c589.png


6、总结和未来工作


我们展示了MUSIED,这是一个用于事件检测的大规模多源异构非正式文本数据集,基于在线食品服务的用户评论、文本对话和电话对话。广泛的评估验证了文本非正规性和多源异质性特征带来的独特挑战。我们的深入研究提出了多个有前景的方向,包括利用文档级信息、多领域学习和领域适应。未来,我们有兴趣将MUSIED扩展到更多与事件相关的任务,如事件论元抽取。

有前景的方向,包括利用文档级信息、多领域学习和领域适应。未来,我们有兴趣将MUSIED扩展到更多与事件相关的任务,如事件论元抽取。

目录
打赏
0
0
0
0
3
分享
相关文章
MongoDB Atlas与YoMio.AI近乎完美适配:推理更快速、查询更灵活、场景更丰富
随着MongoDB的新发布和革新,YoMio.AI的“闪电式发展”值得期待。
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
鸿蒙next字符串基础:掌握字符串操作与多语言支持
本文深入介绍了鸿蒙(HarmonyOS)开发中字符串处理的基础知识和高级技巧。涵盖字符串资源管理、多语言支持、基本操作(如拼接、替换、分割和大小写转换)以及在用户界面和交互中的应用。通过合理管理和使用字符串资源,提升应用的用户体验和国际化水平。
544 3
前端|基于 Layui 实现动态搜索选择框
网页端实现动态搜索选择框,要求下拉选项列表能根据用户输入内容动态刷新,最终提交的值必须是由选项列表中点选的。
205 3
通义千问API:让大模型使用各种工具
本章我们将通过一个简单的例子,揭示基于LangChain的Agent开发的秘密,从而了解如何扩展大模型的能力。
通义千问API:让大模型使用各种工具
File常用的方法操作、在磁盘上创建File、获取指定目录下的所有文件、File文件的重命名、将数据写入File文件
这篇文章介绍了Java中`File`类的常用方法操作,包括文件和目录路径名的抽象表示、构造方法、常用方法以及代码实例。文章通过具体的代码示例,展示了如何在磁盘上创建文件和目录、处理目录存在的情况、文件重命名、获取指定目录下的所有文件以及将数据写入文件等操作。每个代码实例都配有测试结果截图,帮助读者更好地理解和掌握`File`类的应用。
File常用的方法操作、在磁盘上创建File、获取指定目录下的所有文件、File文件的重命名、将数据写入File文件
TCP协议中的两种保活机制详述
TCP的保活机制通过保活探针和用户配置的保活时间两种方式,为网络通讯提供了重要的保障。它帮助识别并处理那些因为网络不稳定或对端突然下线而变得无响应的连接,对于确保长时间运行的网络应用的稳定性和可靠性非常关键。合理配置和使用TCP保活机制,可以显著提升网络应用的鲁棒性和用户体验。
274 1
|
11月前
|
Python函数式编程:你真的懂了吗?理解核心概念,实践高阶技巧,这篇文章带你一次搞定!
【8月更文挑战第6天】本文介绍了Python中的函数式编程,探讨了高阶函数、纯函数、匿名函数、不可变数据结构及递归等核心概念。通过具体示例展示了如何利用`map()`和`filter()`等内置函数处理数据,解释了纯函数的一致性和可预测性特点,并演示了使用`lambda`创建简短函数的方法。此外,文章还强调了使用不可变数据结构的重要性,并通过递归函数实例说明了递归的基本原理。掌握这些技巧有助于编写更清晰、模块化的代码。
135 3
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问