表格是各行各业最普遍的结构化数据或知识的存储形式。企业只要有信息化系统,就会有SQL数据库与表格。
早在2019年阿里云智能客服就开始进行Table QA的研究与落地。在全球范围来看,都属于最早切入这个方向的研究者和实践落地团队。经过数年打磨,Table QA在阿里云智能客服产品矩阵中大规模落地。
我们已经实现多轮对话能力、多表联合查询能力。企业百万行级的数据库可以一次性接入,再大量级的数据库可以做水平扩展;整个开箱准确率达到85%,经过阿里云智能客服的适配性训练后,准确率可以升至90%以上。
Table QA技术在客服问答场景开箱落地以后,我们也一直在思考技术接下来的发展方向,多方考虑后还是觉得始终该回归到出发点上。Table QA是基于表格、SQL数据库构建起来的,面向SQL数据库时,除了能够做问答以外,BI智能分析也是十分重要的方向。
问答是以SQL数据库为基础来回应客户疑问;BI则是以SQL数据库为基础,洞察其中规律,挖掘有价值信息,为决策提供辅助支撑。所以我们一直希望可以把Table QA能力从客服领域拓展到智能BI分析领域。
当把Table QA技术从问答拓展到智能BI,我们遇到了两个全新的挑战。
l 在智能BI分析领域,整个SQL长度过长。如果在问答领域,解析出的SQL是一个句子。那么在智能BI分析领域,解析出的SQL基本是一个段落。
l SQL复杂度持续走高。在BI领域,SQL嵌套,仔细查询会变得非常常见。
我们的解决策略还是希望能够引入预训练大模型,由此提出Space-T,T代表了table,Space-T把整个问答和BI分析能力进行了统一的大规模预训练;在具体训练机制上,我们提出了TKK训练模型,该模型目前已在EMNLP 2022上正式发表。在Space-T的加持下,加速在智能BI分析领域把Table QA技术进行落地。
在BI分析里,最常用的两大类能力,是统计类和同环比趋势类。目前,阿里云智能客服可以在用户输入跨越的过程中,根据表格内容,进行智能化的下拉提示,直接填充表格内容,便于用户快捷操作,也减少了后续解析SQL过程的错误,并直接生成数据饼图。
统计类中的同环比趋势方向,生成的SQL相当于一小段文字内容,后台查询到的结果直接以线图的形式进行展现。
近年来,阿里云的TableQA技术取得了行业内的技术领先。在三大榜单Spider、SParC、CoSQL中,排名均为第一。
在论文研究创新方面,无论是底层的预训练大模型,下游的任务模型,以及上下游模型的执行协同,阿里云智能客服也进行了大规模的体系化创新,发表了多篇论文,
截止到今天为止,在这个方向上,我们在全球范围内处于领先水平。