我我我,真的薅了一个 78% 的模型,俗话说,好东西不能藏着掖着,是需要和 兄弟萌 一起分享的,所以,我觉得写一篇水文,哦,不,写一篇文章给大家分享下,我 薅(bai)羊(piao)毛(le)的过程哈
事情是这样的,我在参加一个 20万奖金 的大项目!!!
传送门同时奉上
比赛内容大概是这样
支小宝中文NL2SQL数据集采用金融领域的表格作为数据源,涵盖了基金的产品和属性,提供在此基础上的标注的Query-SQL对,希望选手们能在此基础上训练深度学习模型,将自然语言准确的转换为可查询的SQL语句。
数据集来源于支小宝智能理财助理对话机器人线上真实用户查询和基于专家模板和线上查询分布生成的金融领域数据;其中,生成的数据经过了多位标注人员的改写和修正。本次比赛基于单数据表提供10.6万+数据,其中7.8万+条标注数据作为训练集,1.2万条数据作为A榜测试集,1.6万条数据集作为B榜测试集,最终排名以B榜成绩为准。
大概意思就是,给个表格,让你训个模型,然后问你问题,你需要给这个问题正确的SQL语句。。。
其实还是 有点 复杂 的。。。需要先这样。。。再那样。。。再这样。。。然后这里再这样。。。
(转折)但是,我发现了一个可以 薅(bai)羊(piao)毛(le) 的东西!!!
最近发现个新东西 —— ModelScope,是阿里云搞的一个模型的一站式服务,里面好多模型都是 达摩院 出品的,我擦~
传送门
https://www.modelscope.cn/#/models?name=text2sql&page=1
更重要的是,里面正好就有个 中文的Text-to-SQL的模型,还是 预训练!!!,这不是撞到脸上来了吗?!~
直接上图,上链接
传送门
https://www.modelscope.cn/#/models/damo/nlp_convai_text2sql_pretrain_cn/summary
使用方式也简单,安装几行代码搞定,要是不care环境的,直接pip install就行
conda create -n modelscope python=3.7 conda activate modelscope pip install "modelscope[nlp]"-f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
然后就开始下模型了
from modelscope.hub.snapshot_download import snapshot_download # 第一个参数是我们的模型id,第二个参数./model是下载模型的目标路径model_dir = snapshot_download('damo/nlp_convai_text2sql_pretrain_cn', cache_dir='./model')
拿到的预训练就在./model文件夹里面了~
然后就是。。。一顿加载搞起。。。这部分有点长,我先搞个结果给大家。。。
目前 78%,能够 排名15左右,剩下的得靠,SQL的 值的相似度 模块了,我也在搞。。。
然后,然后,然后,我我我,马上就再写一篇文章,把 所有能跑能提交到78%的整个代码发出来 ~~~~!!!!
兄弟萌,赶紧 薅(bai piao) 起来呀~!!!!
家人们,我说一个数,下载1000次~!,冲~冲~冲~
(第二篇文章已经写完,传送门:https://developer.aliyun.com/article/998875)