在日常工作中,Excel 表格随处可见;在 APP 或网页中,表格是清晰友好的信息传递方式;在企业中,关系型数据库无所不在。由于表格数据结构清晰、易于维护,并且对人类理解和机器理解都比较友好,表格 / 关系型数据库是各行各业应用最普遍的结构化知识存储形式。
但在表格知识的查询交互中,门槛却不低:对话系统或搜索引擎并不能很好地将表格知识作为答案查询出来,而关系型数据库的查询更需要专业技术人员撰写查询语句(如 SQL 语句)来完成,对大多数用户来讲门槛更高。在这种背景下,表格问答技术(TableQA)通过将自然语言转换为 SQL 查询语言,允许用户使用自然语言与表格知识直接交互,为表格知识的大规模交互使用铺平了道路。
近些年来,TableQA 任务得到了学术界及工业届的共同关注,并取得了飞速的发展。而 Text-to-SQL 作为 TableQA 的核心技术 ,学术界推出了包括单表单轮 WikiSQL、多表单轮 Spider、多表多轮 SParC 和对话式 CoSQL 等四个权威的国际公开数据集及榜单。面向这四大榜单,达摩院提出了 SDSQL、S²SQL、R²SQL 等一系列工作,先后在这四大国际权威榜单上取得第一,相关论文已经被 AAAI、ACL 等顶级会议接收。同时,达摩院致力于将 TableQA 技术落地为产品,在阿里云智能客服中开始规模化推广,成为具备差异化竞争力的新产品。
在机器之心 3 月 16 日的技术分享中,阿里巴巴达摩院算法工程师惠彬原将为读者详细解读他们在 TableQA 技术方向上的探索与创新。
分享主题:四大榜单第一名、首个中文预训练表格模型开源,达摩院 TableQA 技术让表格说话
分享嘉宾:惠彬原,阿里巴巴达摩院算法工程师。他 15 岁考入大学,硕士期间在达摩院智能对话团队实习一年,毕业后加入团队成为正式员工。研究领域为自然语言处理,具体方向包括语义解析、智能对话、大规模预训练模型等。他曾在 ACL / AAAI 等顶会上发表多篇论文并多次担任 ACL / EMNLP / NAACL / AAAI 等会议审稿人。
分享摘要:在过去两年时间里,阿里达摩院对话智能团队(Conversational AI)围绕 TableQA 做了一系列探索,先后在四大国际权威榜单(WikiSQL、Spider、SParC、CoSQL)上取得第一,相关论文已经被 AAAI、ACL 等顶级会议接收,并且开源了首个中文预训练表格模型。本次分享将对达摩院在 TableQA 技术方向的体系化创新进行详细介绍。
相关链接:
https://ojs.aaai.org/index.php/AAAI/article/view/17550
https://github.com/alibaba/AliceMind/blob/main/SDCUP/README.md