长文本口语语义理解技术系列③:待办抽取实践

简介: 数智化浪潮下,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输;网络作为主要的信息交流和分享的方式,海量不同源的网络信息,使得企业与个人消化信息的成本越来越高。音视频数据作为其中重要的信息来源之一,也随着远程视频会议、在线课堂、直播教学、电话销售等领域有了爆炸性的增长。

为了帮助用户提升信息获取及信息加工的效率,阿里巴巴达摩院语音实验室的口语语言处理团队实践了一系列针对音视频转写结果的长文本语义理解能力。>>长文本口语语义理解技术系列①:段落分割实践
>>长文本口语语义理解技术系列②:关键词抽取实践本期推出口语语义理解技术系列第三篇,围绕对长文本进行待办抽取的方法进行介绍。▎研究背景

近年来,线上会议越发普遍。据统计,每周花在会议上的平均时长——公司员工为 6 小时,而管理者则长达 23 小时 [1]。对大多数工作者来说,投入在线上会议的时间都很可观。

为了提高音视频会议的用户体验,很多新兴技术得以应用。在自动语音识别(Automatic Speech Recognition, ASR)的支持下,用户可以越来越便捷地把会议的音频,识别得到对应的文本(会议记录),这项功能亦成为会议平台的标配。

同时,为了减轻人工劳动,从庞杂的会议记录中提取重要的信息(比如议题、结论、待办事项等),存档为会议纪要,很多会议相关的自然语言处理 (Natural Language Processing, NLP) 任务被提出,希望机器可以辅助整理重要信息,这些任务中就包括智能待办,即行动项识别(Action Item Detection)

行动项识别任务的目的在于让机器可以从会议记录中,自动识别出待办事项相关的语句,进而帮助用户更方便地整理会议纪要,跟进会后行动,提高工作效率。

▎研究现状以下将从建模任务的角度出发,介绍国内外的相关研究现状。No.1 行动项识别

会议场景的行动项识别任务,早在 2006 年就被提出 [2]。该任务通常被建模为句子级别的文本二分类问题,即判断一个句子是否涉及待办事项。

早期工作 [2] 大多采用特征工程和传统机器学习的方法,基于 ICSI、AMI 等公开会议数据集进行实验。近年来,随着预训练模型的发展和会议相关研究的复苏,很多基于 BERT、ETC 等预训练模型的方法 [3] 也得以应用。

image.png

除了句子级建模,还有些工作引入上下文信息,或者待办相关的讨论内容,进行片段级别的文本二分类。如图 1 所示,有的工作 [4] 将上下文和当前句子进行拼接,通过 [SEP] 分隔作为输入,以增大模型可用的信息量。将当前句子对应的 [SEP] 的表示作为分类器的输入,进行文本分类的预测。

No.2 行动项要素识别

此外,还有些工作 [5] 针对行动项的各个要素,包括任务描述(task description)、负责人(owner)、时间(timeframe)、是否认同(agreement)这四个要素,分别建模为独立的二分类任务。这些独立任务的预测结果,也可以作为行动项识别模型的输入,判断句子或片段是否涉及行动项。

No.3 行动项改写

行动项改写任务,是指将涉及行动项的相关语句,改写为简洁精练易于理解,又能忠实准确反映全部必要信息的待办事项。有的工作引入 Seq2Seq 模型和 Copy 机制,进行行动项改写。近年来,也有工作 [6] 基于 BART、UniLM 等预训练模型进行改写。

▎会议场景行动项识别

接下来介绍我们在会议场景的行动项识别方法。首先,本文总结了该任务面临的问题和挑战。针对这些挑战,我们给出了解决方案,包括问题建模、模型调优等一系列方法,提高模型表现。此外,我们构建了完整的线上全链路引擎。

No.1 任务挑战

会议场景的行动项识别相关任务,仍然面临着很多问题和挑战,主要表现在如下几个方面:

  • 数据量少:如表 1 所示,公开会议数据发布时间很早,数量较少。
  • 标注质量低:行动项标注的一致性比较低,标注噪音比较明显。在 ICSI 数据集上,标注 Kappa 值大部分均在 0.6 以下 [2]。
  • 类别不均衡:该任务的类别很不均衡,正例非常稀疏,影响分类模型的表现。
  • 口语特性:会议是复杂的多人口语交互场景,会带来一些口语特性的限制。

image.png

这些因素叠加到一起,制约着行动项识别的性能。即使是大规模预训练模型,在该任务上的表现也并不理想,比如 BERT 在 ICSI 数据集上句子级别二分类的 F1 值仅为 39% [4]。

为了缓解这些问题,我们做了一些努力和尝试。主要包括对比不同的预训练模型,预训练模型的口语适配,fine-tuning 中的多种调优策略等。下面将详细介绍这些探索的动机,具体方法,以及效果和分析。

No.2 问题建模

我们将行动项识别模型建模为文本二分类问题,如图 2 所示,采用 Pre-training + Fine-tuning 的建模范式,减少对标注数据的依赖。此外,我们还尝试了 Prompt 范式的建模,以利用语言模型知识。

image.png

为了选定基模型,我们比较全面地对比了多种 BERT 范式的预训练模型在行动项识别这个下游任务上的表现,发现一些改进的预训练任务可以提升模型对口语场景的适应能力。

image.png

阿里巴巴达摩院 StructBERT 模型 [7] 提出了 WSO (Word Structural Objective) 预训练任务,可以增强模型对乱序表述的理解能力。如图 3 所示,该方法首先把 trigram 进行 shuffle,希望模型仍然可以预测出正确顺序的 token。

比如将“我爱你”打乱为“爱你我”,需要模型按正确词序预测出“我爱你”。这种从乱序表述中重构正确词序的能力,使得模型可以更好地适应口语的乱序特性。

类似地,PERT 模型 [8] 同样对 n-gram 进行 shuffle,希望模型可以预测出乱序 token 对应的正确的 position,相比 BERT 取得了更好的表现。

此外,MacBERT [9] 受纠错任务的启发,提出 Mac (Masked language model as correction) 任务,使用相似词而非 [MASK] 这样的 special token 进行 mask,缓解了预训练和下游任务的不一致问题,同时也增强了模型对 ASR 错误的理解能力。

在开源预训练模型的基础上,以 Masked Language Model (MLM) 为预训练任务,进行继续预训练(further pre-training)使模型更适应口语场景。在不同预训练模型上,均观察到下游行动项识别任务上的稳定提升,验证了口语场景适应的重要性。

在建模范式方面,我们还尝试了 Prompt 的范式,构造不同的模板,如图 2 中 Prompt 部分所示,把文本分类问题转化为 masked language model 预测任务,以更好地利用大规模预训练模型在海量无标签文本中学到的语言模型知识。相比于文本分类表现,Prompt 范式的结果略有提升。

No.3 模型调优

针对前面提到的各类问题和挑战,我们尝试了多种优化方法来提高模型在行动项识别任务上的表现。在 fine-tuning 过程中采用的多种调优的方法包括:

  • 改善标注质量:利用置信学习(confident learning)的方法 [10],根据原始标签和模型预测结果,通过若干启发式的方法,发现一些标注错误的噪音数据,进而改善数据集标注质量,带来 F1 值 3 个点的提升。除此以外,还采用 label smoothing 来提升模型的抗噪能力,降低标注错误的负面影响。
  • 缓解类别不均衡:通过多种数据增强的方法,扩充正例的数据量,增加正例样本的占比。而且,引入 focal loss 使模型更关注于易错正例样本的学习,来缓解正例样本稀疏性问题带来的性能损失,总共带来 F1 值 4 个点的绝对提升。
  • 书面化处理:有研究发现,书面文本(如邮件)上的行动项识别,明显优于口语文本上的表现。为了缓解口语噪音对性能的损害,尝试对口语数据进行书面化风格转写的前处理,观察到 Precision 有 3 个点的提升。
  • 引入上下文信息:把上下文拼接到当前句子的后面,如图 2 中 Context 部分所示,增大可用信息量,带来 F1 值 1 个点左右的绝对提升。
  • 提高模型鲁棒性:采用 R-Drop 的方法 [11],如图 2 左上部分所示,对一个句子做两次 dropout,希望它们的预测概率分布尽可能地接近,缓解了 training 阶段和 inference 阶段 dropout 不一致的问题,带来 F1 值 2 个点的绝对提升。

我们对比了多种自训练范式,以及提高伪标签置信度的方法。最终,采用了三段式的训练顺序,先在人工标注训练集(train)上进行训练模型,然后在 pseudo label 数据集中继续训练,最终回到人工标注训练集(train)上进行 fine-tuning,在行动项识别任务上的取得了较好的效果。

此外,为了减少标注成本,我们采用主动学习的方法。根据模型的预测结果,通过不同策略,筛选出一些预期对模型增益最大的样本,进行标注,加入到训练集中,以提高模型表现。

No.4 全链路引擎

在引擎方面,我们构建了完整的行动项识别的 pipeline 流程,如图 2 中 Online Engine 部分所示,其核心部分是行动项识别模型。此外,受对话系统中语义理解模块的启发,我们设计了与模型链路平行的规则链路,以增强系统召回结果的可控性。

在前处理(Preprocess)部分,对于输入的每个句子,我们首先通过 Tagger 进行打标,识别并记录句子中的时间词、动作词等相关信息。然后通过 Filter 对句子进行过滤,只有满足设定的若干条件,才会作为候选语句,输出到接下来的模型调用和规则链路。前处理过滤掉了一些明显不含行动项的句子,降低了模型的调用量,提高了系统性能。

在后处理(Post-process)部分,根据输入的候选句子及得分,Ranker 对结果进行排序,输出前 Top K 个结果作为待办相关语句。对于这些待办相关语句,为了整理待办事项的相关要素,我们设计了 Parser 解析模块,将时间词解析为对应的时间戳信息,并对句子内容进行书面化处理。

▎实验结果分析

数据集

我们的会议数据为模拟会议,其中部分已在 AliMeeting 数据集 [12] 中开源。基于会议的人工转写文本,在数据脱敏后,进行数据标注,构建行动项数据集。

为了更全面地评价模型表现,我们设计了三个不同场景的测试集。

  • 模拟会议测试集来自模拟会议,符合行动项识别目标应用场景,通过 F1 进行评价。
  • 行动指令测试集:由众包编写的来自多个行业的行动指令,用来评测模型对于跨行业的明确行动项指令的覆盖能力,通过 Recall 进行评价。
  • 演讲/访谈测试集:来自演讲、访谈场景,理论上没有真正的待办相关语句,通过 FPR (False Positive Rate) 进行评价。

实验结果

为了降低随机因素的影响,取多轮实验的平均结果进行报告。实验结果如下面的表格所示。

image.png

如表 2 所示,第一行是 BERT 作为基模型在该任务上的表现,也是目前领域内 state-of-the-art 方法 [3] 的效果。可以看到,更适合口语场景的预训练模型(BERT base size),比如 StructBERT、PERT、MacBERT,展现出了更好的性能。

此外,我们展示了一系列优化方法在行动项识别任务上带来的增益。相比于基于 BERT 模型的方法,我们的优化工作累计带来了模拟会议 F1 将近 10 个点的绝对提升。

image.png如表 3 所示,我们展示了不同自训练顺序下行动项识别的三个不同场景测试集上的性能对比。如前所述,我们发现 train ➔ pseudo ➔ train 的三段式方法,在该任务上的表现较好。

Future work行动项识别任务,仍然是个很有挑战的任务,有很多问题尚未完全解决。为此,我们进行了多种探索,推进智能待办功能在会议场景中的应用。希望在未来,智能待办能更好地帮助用户整理会议纪要,方便用户更便捷地跟进会后行动。接下来,我们将尝试不同粒度的建模范式,比如从句子级扩展到篇章级的建模。计划通过文本结构化的方法,更好地提供待办事项的相关要素信息。

References:

[1] Rogelberg, S., Scott, C., Kello, J. 2007. The Science and Fiction of Meetings. In MIT Sloan Management Review, volume 48, pp. 18-21.

[2] Morgan, W., Chang, P.C., Gupta, S. and Brenier, J., 2006, July. Automatically detecting action items in audio meeting recordings. In Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue (pp. 96-103).

[3] Sachdeva, K., Maynez, J. and Siohan, O., 2021, December. Action Item Detection in Meetings Using Pretrained Transformers. In 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (pp. 861-868). IEEE.

[4] Mullenbach, J., Pruksachatkun, Y., Adler, S., Seale, J., Swartz, J., McKelvey, G., Dai, H., Yang, Y. and Sontag, D., 2021, August. CLIP: A Dataset for Extracting Action Items for Physicians from Hospital Discharge Notes. In ACL-IJCNLP 2021 (Volume 1: Long Papers) (pp. 1365-1378).

[5] Purver, M., Dowding, J., Niekrasz, J., Ehlen, P., Noorbaloochi, S. and Peters, S., 2007, September. Detecting and summarizing action items in multi-party dialogue. In Proceedings of the 8th SIGdial Workshop on Discourse and Dialogue (pp. 18-25).

[6] Cohen, A., Kantor, A., Hilleli, S. and Kolman, E., 2021, August. Automatic Rephrasing of Transcripts-based Action Items. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 (pp. 2862-2873).

[7]  Wang, W., Bi, B., Yan, M., Wu, C., Xia, J., Bao, Z., Peng, L. and Si, L., 2019, September. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding. In International Conference on Learning Representations.

[8] Cui, Y., Yang, Z. and Liu, T., 2022. PERT: Pre-training BERT with Permuted Language Model. arXiv preprint arXiv:2203.06906.

[9] Cui, Y., Che, W., Liu, T., Qin, B., Wang, S. and Hu, G., 2020, November. Revisiting Pre-Trained Models for Chinese Natural Language Processing. In Findings of the Association for Computational Linguistics: EMNLP 2020 (pp. 657-668).

[10] Northcutt, C., Jiang, L. and Chuang, I., 2021. Confident learning: Estimating uncertainty in dataset labels. Journal of Artificial Intelligence Research, 70, pp.1373-1411.

[11] Wu, L., Li, J., Wang, Y., Meng, Q., Qin, T., Chen, W., Zhang, M. and Liu, T.Y., 2021. R-drop: Regularized dropout for neural networks. Advances in Neural Information Processing Systems, 34, pp.10890-10905.

[12] Yu, F., Zhang, S., Fu, Y., Xie, L., Zheng, S., Du, Z., Huang, W., Guo, P., Yan, Z., Ma, B. and Xu, X., 2022, May. M2MeT: The ICASSP 2022 multi-channel multi-party meeting transcription challenge. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6167-6171). IEEE.



相关文章
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
2月前
|
机器学习/深度学习 自然语言处理 算法
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
195 0
|
4月前
|
机器学习/深度学习 自然语言处理 vr&ar
ICML 2024:复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了
【8月更文挑战第24天】近年来,3D内容生成技术为虚拟现实和游戏领域带来革新,但仍面临处理复杂场景和多对象交互的挑战。为此,研究者提出了Layout-guided Gaussian Splatting (LGS)框架,结合大型语言模型(LLMs)和扩散模型,实现高质量3D场景生成。LGS通过LLMs提取文本描述中的实例关系并转化为布局,再使用扩散模型和自适应几何控制技术优化3D高斯表示,生成更准确、细腻的场景。实验表明,LGS在复杂场景生成方面表现优异,但计算成本和训练时间较长,且主要针对静态场景。论文详情参见:https://arxiv.org/pdf/2402.07207
65 3
|
人工智能 JSON 自然语言处理
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
bert知识库问答 实现建筑领域的问答匹配 文本相似性计算 完整代码数据
bert知识库问答 实现建筑领域的问答匹配 文本相似性计算 完整代码数据
105 0
|
自然语言处理 算法 API
NLP自学习平台提供了一种称为“关键词提取”的功能
NLP自学习平台提供了一种称为“关键词提取”的功能
132 1
|
机器学习/深度学习 人工智能 自然语言处理
深入解析情感分析技术:从篇章到属性
深入解析情感分析技术:从篇章到属性
187 0
|
机器学习/深度学习 自然语言处理 算法
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法
NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法
|
自然语言处理 达摩院 算法
长文本口语语义理解技术系列②:关键词抽取实践
长文本口语语义理解技术系列②:关键词抽取实践
239 0
长文本口语语义理解技术系列②:关键词抽取实践
|
机器学习/深度学习 自然语言处理 达摩院
长文本口语语义理解技术系列③:待办抽取实践
长文本口语语义理解技术系列③:待办抽取实践
340 0
下一篇
DataWorks