ICASSP2023论文解读|如何检测会议记录中的待办事项?

简介: ICASSP2023论文解读|如何检测会议记录中的待办事项?

image.png


得益于语音识别技术的发展,人工智能可以帮助人们记录会议,自动检测与会后行动项关联的会议内容,并进行总结。


行动项识别对于管理会后待办任务至关重要。


image.png

(应用实例:通义听悟上的行动项识别及归纳)


针对对于行动项识别任务,相关数据集稀缺且规模小。因此,达摩院构建并开源了AMC-A语料库,这或是首个带有行动项标注的中文会议语料库。


基于行动项数据集,我们提出了 Context-Drop 方法,通过对比学习利用局部和全局上下文,在行动项识别任务中取得了更好的表现和鲁棒性。此外,我们探索了轻量级模型集成方式来利用不同的预训练模型的方法。


开源数据链接👇:

https://www.modelscope.cn/datasets/modelscope/Alimeeting4MUG/summary


开源方法链接👇:

https://github.com/alibaba-damo-academy/SpokenNLP/tree/main/action-item-detection


数据集构建


AMI 数据集


AMI 会议语料库在各种会议相关研究中发挥了重要作用。它包含 171 份会议记录和各种类型的第三方标注。其中,场景式会议有 145 篇,自然发生会议有 26 篇。


AMI 会议语料库是用于评估行动项识别表现的常用数据集。虽然这个语料库没有行动项的直接标注,但是可以根据摘要的标注生成间接标注。


参照之前工作的范式,我们将与行动项相关的摘要所对应的对话行为视为正样本,否则为负样本。通过这种方式,我们获得了 101 篇带有 381 个行动项正例的有标注会议。此外,我们应用了官方推荐的仅限场景的数据集划分方式。


AMC-A 数据集


我们构建并提供了一个中文会议语料库,即 AliMeeting-Action Corpus 语料库 (AMC-A),其中包含行动项标注。我们扩展了之前在 M2MET 中发布的 224 次会议,增加了 200 次会议。每场会议由 2 到 4 名参与者进行 15 分钟到 30 分钟的讨论。讨论的话题比较多样,偏向于各个行业的工作会议。所有 424 份会议记录均为手动转录,并插入了标点符号。以手动标记的句号、问号和感叹号结尾的语义单元被视为用于行动项标注和建模的句子。

我们将行动项识别看作二分类任务,并进行句子级别的行动项标注,即包含行动项信息(任务描述、时间期限、负责人)的句子为正样本(标记为 1),否则为负样本 (标记为 0)。根据之前的研究和我们的经验,行动项的标注具有高主观性和低一致性,比如在 ICSI 语料库上的 Kappa 系数仅为 0.36。

为了简化任务,我们提供了详细的标注规范和充足的示例。为了降低标注成本,我们首先选择包含时间表达(例如“明天”)和与动作相关的动词(例如“完成”)的候选句子,并以不同的颜色进行高亮显示。然后由三位标注员独立地标注候选句子。标注时,候选句子会随上下文一起显示,以便标注员可以更好地利用上下文信息进行理解。


图示:中文 AMC-A 数据集及英文 AMI 数据集统计结果)


通过这些标注方法,标注员之间的平均 Kappa 系数为 0.47。对于来自三位标注员的不一致标注,由一位专家决定最终标注。上表显示 AMC-A 和 AMI 会议语料库的统计结果。AMC-A 或是第一个中文带有行动项标注的会议语料库。


方法介绍


此前的研究方法几乎都用到了局部上下文,但是对于全局上下文的关注不足。通过下面这个例子可以看出,局部上下文可以提供很多相关信息。但是有一些不邻近的句子,也可以提供一些相关信息,我们称之为全局上下文。


图示:行动项示例,提供了句子编号、说话人信息,标注了行动项局部上下文全局上下文


一方面,上下文对于行动项识别任务非常重要。另一方面,局部上下文和全局上下文中都有一些无关信息,这可能反而会对分类器的表现造成负面影响。


图示:上下文建模方法)


我们希望模型可以更专注于当前句子,可以更好地利用上下文中的有关信息提高模型表现,避免受到无关信息的负面影响。因此,我们提出了 Context-Drop 的方法,使得当前句子作为输入得到的预测概率分布,和当前句子与上下文作为输入得到的预测概率分布,两者之间的距离尽可能接近,通过 KL 散度来度量两者之间的距离。


我们提出了两种 Context-Drop 方法,一种是 Context-Drop (fixed) 方法,输入 1 是当前句子,输入 2 是当前句子和上下文信息。另一种是 Context-Drop (dynamic) 方法,对于输入 1 和输入 2,上下文中的所有句子,均有一定概率被保留,也有一定概率被舍弃。因此,Context-Drop (dynamic) 方法比较灵活。


此外,我们观察到,尽管标注过程中不同标注员之间的一致性很低,但是投票结果往往是靠谱的。因此,我们考虑 Model Ensemble 的方法。为了保持模型的推理速率,我们提出了 Lightweight Model Ensemble 方法,使用预训练模型 A 的对应参数初始化编码器参数,使用另一个预训练模型 B 的对应参数初始化 pooler 层参数,轻量级地整合不同预训练模型的知识。


实验分析


在英文 AMI 和中文 AMC-A 数据集上,我们进行了多个实验,验证 Context-Drop 和 Lightweight Model Ensemble 方法的表现。


图示:不同预训练模型及建模方式实验结果)


我们对比了多个预训练模型,以及不同的建模方式。发现 StructBERT 在口语任务上表现较好,这或许因为其 WSO 预训练任务,通过把打乱的 tri-gram 重构为正确顺序,StructBERT 模型对乱序表达的理解力得到改善,而这种乱序表达在口语里是比较常见的。


(图示:不同上下文建模方式对比实验结果)


我们发现 sentence + local & global context 的设置,在中英文数据集上都比 sentence + local context 的表现要好。而且,sentence + local context 的设置,均比 sentence 的表现要好。这说明,上下文对于行动项识别任务确实很重要,而且全局上下文可以提供一些局部上下文所不具备的补充信息。


而且,我们可以看到 Context-Drop 比 baseline 的表现更好,而且鲁棒性也有所改善。这验证了我们的假设,Context-Drop 方法可以使得模型更关注于当前句子,利用上下文中的相关信息提升模型表现,并避免受到上下文中的无关信息的干扰。此外,我们发现 Context-Drop (dynamic) 方式通常是表现尚佳的,说明这种更加灵活的对比学习方式可以取得更好的效果。


通过消融实验,我们去掉了 KL 散度正则化的 loss,相当于仅做了数据增强,可以观察到表现的下降,反映了对比学习对于表现提升的重要性。



(图示:Lightweight Model Ensemble 实验结果)


通过实验,可以看到,当模型从两个不同的预训练模型进行初始化时,这种 Lightweight Model Ensemble 的方式比传统方式取得了更好的表现。在不增加参数量和计算量的情况下,Lightweight Model Ensemble 方法可以轻量级地整合不同预训练模型的知识。


Future Work


未来,我们会进一步优化 Lightweight Model Ensemble 方法,并在其他任务上进行探索,并尝试 Context-Drop 和 Lightweight Model Ensemble 相结合的方法。欢迎大家登录通义听悟,体验待办功能。“



References:


[1]William Morgan, Pi-Chuan Chang, Surabhi Gupta, and Jason Brenier, “Automatically detecting action items in audio meeting recordings,” in Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue, 2006, pp. 96–103.

[2]Matthew Purver, Patrick Ehlen, and John Niekrasz, “Detecting action items in multi-party meetings: Annotation and initial experiments,” in Machine Learning for Multimodal Interaction, Third International Workshop, MLMI 2006, Bethesda, MD, USA, May 1-4, 2006, Revised Selected Papers, Steve Renals, Samy Bengio, and Jonathan G. Fiscus, Eds. 2006, vol. 4299 of Lecture Notes in Computer Science, pp. 200–211, Springer.

[3]Matthew Purver, John Dowding, John Niekrasz, Patrick Ehlen, Sharareh Noorbaloochi, and Stanley Peters, “Detecting and summarizing action items in multi-party dialogue,” in Proceedings of the 8th SIGdial Workshop on Discourse and Dialogue, 2007, pp. 18–25.

[4]Kishan Sachdeva, Joshua Maynez, and Olivier Siohan, “Action item detection in meetings using pretrained transformers,” in 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021, pp. 861–868.

[5]James Mullenbach, Yada Pruksachatkun, Sean Adler, Jennifer Seale, Jordan Swartz, Greg McKelvey, Hui Dai, Yi Yang, and David Sontag, “Clip: A dataset for extracting action items for physicians from hospital discharge notes,” in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2021, pp. 1365–1378.

[6]Fan Yu, Shiliang Zhang, Yihui Fu, Lei Xie, Siqi Zheng, Zhihao Du, Weilong Huang, Pengcheng Guo, Zhijie Yan, Bin Ma, et al., “M2met: The icassp 2022 multi-channel multi-party meeting transcription challenge,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 6167–6171.


本期撰稿:刘嘉庆,邓憧,张庆林,陈谦,王雯

相关文章
请问有没有能撰写期刊学术论文的模型和数据?
请问有没有能撰写期刊学术论文的模型和数据?
|
6月前
|
算法 图形学 计算机视觉
CVPR 2024:合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
【6月更文挑战第12天】CVPR 2024上的M3Act数据集解决了复杂人群行为标注难题,提供多视角、多群体的合成视频数据,助力计算机视觉研究。利用Unity引擎生成高度真实的人类动作和群体活动,促进以人类为中心任务的学习。实验显示,M3Act能提升目标检测等任务性能,降低数据收集成本,并支持3D群体活动的可控生成。尽管面临数据复杂性、偏差和计算资源限制等问题,M3Act为相关研究提供了宝贵资源。[论文链接](https://arxiv.org/abs/2306.16772)
79 4
|
2月前
|
机器学习/深度学习
顶会审稿人紧缺,我审我自己!ICML 2023排序实验结果出炉:作者自评能提升评审质量吗?
【10月更文挑战第8天】ICML 2023通过一项创新实验,要求作者对提交的多篇论文进行自评排名,以评估其相对质量。实验结果显示,作者自评能提高评审的准确性和效率,但需谨慎处理潜在的主观性和操纵问题。
31 5
|
7月前
|
测试技术 计算机视觉 异构计算
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | 封神榜团队揭秘大模型训练秘密:以数据为中心
近一年来,各种各样的开源和闭源的大语言模型,不断在多个中文英文的测试基准中刷新着记录。然而,大语言模型的开发仍然面临诸多挑战,比如从头开始训练大语言模型的高昂成本,以及继续预训练导致的灾难性遗忘等等。尽管许多研究致力于解决这些问题,但一个重要而且实际的限制是,许多研究过于追求扩大模型规模,没有全面分析和优化预训练数据在训练大语言模型过程中的使用。
|
7月前
|
开发工具 SEO
工作效率提升秘籍!如何科学使用待办事项清单
**待办事项清单简介** 待办事项清单是组织任务的有效工具,可帮助跟踪和优先处理事务。它能提升工作效率,减轻工作压力。创建清单时,考虑使用数字工具如Microsoft To Do或Google Tasks,并确保清单简洁、按优先级排序。批处理相似任务、时间块管理、消除干扰和分解大任务都有助于高效完成工作。使用清单虽有压力增加等潜在缺点,但正确运用能提高生产力,改善时间管理。
70 1
|
7月前
|
算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第二十二期
Sentieon | 每周文献-Clinical Trial-第二十二期
43 2
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
找论文参考:机器视觉会议和期刊
这里分享下机器学习和人工智能的顶会和期刊,可以在这些会议和期刊上找与你相关的paper。【2月更文挑战第3天】
132 2
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
138 1
|
安全 算法 数据挖掘
Sentieon | 每周文献-Clinical Trial-第十一期
Sentieon | 每周文献-Clinical Trial-第十一期
69 1