小叽导读:在 MS MARCO 文本阅读理解挑战赛中,阿里 AI 创造了阅读理解能力测试的新纪录,并在开放域的问答任务上超越人类阅读水平。测试结果显示,阿里 AI 模型在文档检索排序和开放域自动问答两项任务都登顶榜首,其中在开放自动问答领域上超越人类水平,意味着人工智能的阅读理解能力达到新的高度。今天,阿里巴巴高级算法专家吴晨带你揭秘这项技术。
级联学习可以通过在不同阶段采用不同的特性选择和样本筛选策略达到效果和性能的平衡,阿里巴巴提出的多文档机器阅读模型首先利用简单特征和排序模型过滤掉与问题无关的样本和段落,并得到一组候选文本,供后续从中提取答案。然后将生成的段落传递给基于注意力的深层 MRC 模型(不同于传统多层 MRC,阿里巴巴研究团队在近期公布的 Google BERT 进行了进一步的创新优化,并设计了基于 Enriched BERT 的新 MRC 模型),该模型用于提取单词级别的实际答案跨度。为了进一步提升模型效果,该模型使用文档提取和段落提取作为辅助任务,以快速减少搜索空间的范围。重要的是,这三个任务在统一的深层 MRC 模型中共享同一个底层语言模型(Enriched BERT),这不仅可以实现粗到细的演绎过程,还可以通过迭代有效地学习更好的模型。
如上图所示,系统架构由三个核心模块组成,分别负责文档检索、段落检索和答案提取。对于前两个功能中的每一个功能,都定义了一个排序函数和一个提取函数。排序函数用于无关内容的过滤(Efficiency)。提取函数将文档提取和段落提取作为辅助任务并与最终答案提取模块(机器阅读理解)联合优化,以提高性能(Effectiveness)。所采用的方案与以前的方法相比,关键的改进是每个模块的本地排序功能在成本和复杂性上逐步增加,在整个计算过程中保持效率和有效性竞争因素之间的平衡。
在实验中(备注:AAAI‘19的实验中不包含 Enriched BERT 结果,后续公布),模型开发人员首先用 TriviaQAWeb 和 DuReader 基准数据集验证了在离线测试中的有效性,这两套数据集通常被用作多文档 MRC 评测的标准数据集。该基准数据的结果表明,研究人员所提出的模型明显超过了以前最先进的模型,在每个包含两个段落四个文档集的场景中性能最佳;此外,通过额外的辅助任务在初期排序中消除不相关的文档和段落,时间成本被证明是可以降低的,可以在不显著影响最终答案提取效果的情况下完成。
经过验证,团队使用阿里小蜜客服机器人系统进行了在线环境测试,该系统旨在帮助阿里巴巴集团电子商务平台解决每日约200万名访问者提出的问题。这些测试表明,该模型能够以低于50毫秒的惊人速度满足请求,同时也显著提高了有效性标准。
上述结果表明,通过减少无关内容的“噪声”,该模型可以大大改善现有的最先进在线答疑系统标准,同时更好地平衡提取过程各个阶段效率和有效性。