训练数据的格式能否给解释下?字段很多,每个字段是什么含义? 不给解释,怎么生成自己的训练数据?
比如,如下字段的含义是什么,怎么获取这些字段的值?
最关键的 sql
字段协议是什么?
怎么把 Chase 数据集转成支持的格式?有没有现成的转换脚本?
agg表示SELECT的聚合函数,序号和上图中的list的index对应,分别表示,求平均、求最大值、求最小值、计数、求和、比较、聚合、对比是否相同、环比、同比、趋势。
sel表示SELECT的列序号,序号和header的index对应。
action表示多轮对话中的转换,具体如上图中的定义。
cond_conn_op表示WHERE的连接符,和上图中的index对应。
conds表示WHERE的每一个条件,数组里的每一个item表示:1)列序号、2)操作符,和cond_ops这个的序号对应、3)值出现在question中的字符串(这个值如果为Null则表示没有WHERE条件)、4)值归一化后的字符串。
history_sql表示历史SQL,和sql这个字段格式相同,只是用单轮的话可以置为None。
wvi_corenlp表示WHERE条件中每个值对应question中的序号,如果只为-100表示没有对应到question。
bert_knowledge:与question_tok等长,每一位表示question中的token是否和table schema有linking。
header_knowledge:与header等长,每一位表示该header是否和question中的token是否有linking。