四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话(2)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话

3.3. 多表多轮 SParC

(1)SParC 榜单介绍

WikiSQL 和 Spider 都是单轮的 Text-to-SQL 数据,耶鲁大学 & Salesforce 于 ACL 2019 提出有上下文依赖的多轮数据集 SParC[14],作者基于 Spider 进行多轮扩展。不同于 Spider 一句话对应一个最终 SQL,SParC 通常需要通过多轮对话来实现用户的查询意图,并且在交互过程中,用户会省略很多之前提到的信息,或者新增、修改之前提到过一些内容,使得该任务更具挑战性。

图 16:SParC 数据示例[17]

(2)R²SQL 模型取得第一

R²SQL[17] 模型的内容详见下一部分。2020 年 7 月,R²SQL 模型在 SParC 榜单取得第一。

图 17:达摩院提出的 R²SQL 模型在 SParC 榜单取得第一

3.4. 对话式 CoSQL

(1)CoSQL 榜单介绍

EMNLP 2019 提出的 CoSQL[15] 将 Text-to-SQL 融入到对话场景,仅存在 3,007 条问题 - SQL 对,但在交互过程中增加了拒识、澄清等轮次,并且需要验证返回的结果后,生成类人的自然语言回复。同时,数据集中 SQL 各关键字的分布差异较大,是目前 Text-to-SQL 领域最难、最复杂的数据集。

(2)R²SQL 模型取得第一

总体来说,SParC 和 CoSQL 遇到的共同挑战在于上下文建模,如何在上下文环境下共同建模自然语言问题、Schema,以及模式链接是亟需解决的问题。达摩院在 AAAI 2021 提出了一种基于动态上下文模式图的框架 R²SQL[17],可以联合地学习自然语言问题、数据库模式(schema)和其之间模式链接的表征,捕捉复杂的上下文依赖。

图 18:R²SQL 模型中的动态模式图

除此之外,在用户不断询问的过程中,存在用户聚焦的意图发生变化的现象,而这种话题偏移将导致模型的性能下降。为了解决这个问题,达摩院使用类人的想法,使用衰减机制来降低之前模式链接的权重,从而更关注当前轮次的模式链接。2020 年 8 月,R²SQL 模型在取得 CoSQL 榜单第一名。

图 19:达摩院提出的 R²SQL 模型在 CoSQL 榜单取得第一

4. 开源中文首个预训练表格模型

达摩院对话智能团队提出了基于 “模式依存” 的表格预训练模型,普遍提升各场景表格的问答准确率。如下图 20 所示,模式依存就是在自然语言问句和表格结构模式之间建立依存关系,比如先让模型学习到 “男生” 和“性别”之间存在依存关系,进一步还可以定义这种依存关系的具体名称为 “WHERE-value”。同时,达摩院团队还使用了模仿人类的“课程学习” 方法来克服多样化难度数据带来的影响。

图 20:Schema Dependency 示例

在耶鲁大学发布的业界最大规模的英文文本 - 表格数据集 WikiSQL,以及微软构建的英文文本 - 表格高难度预测任务 SQuALL 数据集上,SDCUP 模型均取得业界最优效果。详细内容参见《从序列到结构—中文首个预训练表格模型发布》。相关模型和训练代码已经开源于阿里巴巴预训练模型体系 AliceMind。


AliceMind项目地址:https://github.com/alibaba/AliceMind

5. TableQA 规模化业务落地

达摩院 Conversational AI 团队已经将本文介绍的预训练表格模型和相关 Text-to-SQL 技术应用于阿里云智能客服 (云小蜜) 的 TableQA 产品中。为满足不同场景下的训练和交付需求,表格管理、数据配置、模型训练、效果干预等功能已全部完成产品化,基本做到知识梳理低成本,问答构建高速度,模型训练好效果,满足各个场景的交付运维需求。目前已在多个项目中开始规模化交付。

图 21:TableQA 在阿里云智能客服中的产品

6. 未来的技术展望

经过过去两年的探索,达摩院在 TableQA 方向,从单轮到多轮,从单表到多表,从下游模型到上游预训练表格模型,初步形成了比较体系的创新。但总体上,TableQA 还是一个新方向,面向未来,还有很多难题需要研究:

  1. 大规模预训练表格理解模型;
  2. 大规模预训练表格生成模型;
  3. 更强大的 Text-to-SQL 模型;
  4. 忠实流畅类人的 TableNLG;
  5. 端到端开箱即用的 TableQA 系统;
  6. 推广到更多的应用场景。


欢迎感兴趣的同学一起学习交流。

本文作者、阿里巴巴集团达摩院Conversational AI负责人李永彬将于2月底在机器之心机动组视频直播中分享「TableQA」的技术内容,敬请期待!


参考资料

[1] Woods, W. A., Kaplan, R., and Webber, N. B. The LUNAR sciences natural language information system: Final report. Technical Report BBN Report No. 2378, Bolt Beranek and Newman, Cambridge, Massachusetts. (1972)[2] Zhong, Victor, Caiming Xiong, and Richard Socher. "Seq2sql: Generating structured queries from natural language using reinforcement learning." arXiv preprint arXiv:1709.00103 (2017).[3] Xu, Xiaojun, Chang Liu, and Dawn Song. "Sqlnet: Generating structured queries from natural language without reinforcement learning." ICLR (2018)[4] Lyu, Qin, et al. "Hybrid ranking network for text-to-sql." arXiv preprint arXiv:2008.04759 (2020).[5] Yu, Tao, et al. "Typesql: Knowledge-based type-aware neural text-to-sql generation." NAACL (2018).[6] Wang, Chenglong, et al. "Robust text-to-sql generation with execution-guided decoding." arXiv preprint arXiv:1807.03100 (2018)[7] Hwang, Wonseok, et al. "A comprehensive exploration on wikisql with table-aware word contextualization." arXiv preprint arXiv:1902.01069 (2019).[8] Ma, Jianqiang, et al. "Mention extraction and linking for sql query generation." EMNLP(2020).[9] Xuan, Kuan, et al. "SeaD: End-to-end Text-to-SQL Generation with Schema-aware Denoising." arXiv preprint arXiv:2105.07911 (2021).[10] Yin, Pengcheng, and Graham Neubig. "A syntactic neural model for general-purpose code generation." ACL (2017).[11] Liu, Qian, et al. "How far are we from effective context modeling? an exploratory study on semantic parsing in context." IJCAI (2020).[12] Bogin, Ben, Matt Gardner, and Jonathan Berant. "Representing schema structure with graph neural networks for text-to-sql parsing." arXiv preprint arXiv:1905.06241 (2019).[13] Yu, Tao, et al. "Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task." EMNLP (2018).[14] Yu, Tao, et al. "Sparc: Cross-domain semantic parsing in context." ACL (2019).[15] Yu, Tao, et al. "CoSQL: A conversational text-to-SQL challenge towards cross-domain natural language interfaces to databases." EMNLP (2019).[16] Hui, Binyuan, et al. "Improving Text-to-SQL with Schema Dependency Learning." arXiv preprint arXiv:2103.04399 (2021).[17] Hui, Binyuan, et al. "Dynamic Hybrid Relation Exploration Network for Cross-Domain Context-Dependent Semantic Parsing." AAAI (2021).[18] Wang, Bailin, et al. "Rat-sql: Relation-aware schema encoding and linking for text-to-sql parsers." ACL (2019).[19] Cao, Ruisheng, et al. "LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations." ACL (2021).

相关文章
|
9月前
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
429 0
|
8月前
|
人工智能 达摩院
社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench
近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。
|
9月前
|
人工智能 达摩院 自然语言处理
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
|
11月前
|
SQL 机器学习/深度学习 存储
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话(1)
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
465 0
|
11月前
|
SQL 存储 人工智能
多项榜单第一,达摩院算法工程师深度揭秘让表格说话的TableQA技术
多项榜单第一,达摩院算法工程师深度揭秘让表格说话的TableQA技术
120 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
178 0
|
11月前
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
223 0
|
11月前
|
文字识别 自然语言处理 算法
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
179 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
两位谷歌华人研究员发布首个纯视觉「移动UI理解」模型,四大任务刷新SOTA
两位谷歌华人研究员发布首个纯视觉「移动UI理解」模型,四大任务刷新SOTA
111 0
|
11月前
|
人工智能 Rust 自然语言处理
7月最受欢迎AI研究榜单出炉,马毅最新「标准模型」排名第9
7月最受欢迎AI研究榜单出炉,马毅最新「标准模型」排名第9
268 0