开发者学堂课程【模型社区实战课程:玩转文本处理-NLP 实战速成班】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1199/detail/18164
玩转文本处理-NLP 实战速成班
内容介绍:
一、model scope-nlp 介绍
二、通义 AliceMind 预训练大模型
三、基础模型
四、应用模型
五、阶段总结&未来规划
本课程主要分享NLP在model scope社区里面的一些技术,目前在nlp在model scope社区已经上线70+的模型,后续还会有30+的模型上线,总共100+模型上到model scope上面。
今天的分享主要是围绕着四个方面展开,一是预训练大模型,介绍在model scope上线的一些预训练相关的大模型。第二篇介绍一下基础模型,里面包含有nlp的一些基础任务,包含比如分词翻译这些基础的task。第三部分,介绍一下应用模型的上线情况,应用模型主要是贴合业务场景、领域的一些相关的基础模型。最后介绍一下目前的上线情况和未来的NIP的规划。
一、model scope-nlp 介绍
首先对 model scope-nlp 做整体的介绍。
1.通义AliceMind的预训练大模型底座
从最底层开始,会有通义AliceMind的预训练大模型底座,里面包含一些自研的预选模型,除了自研外,还会加入学术界比较知名的预训练模型。比如自研的模型有StructBERT,在BERT基础上做了一些升级,可以作用于下游NLP理解任务的模型,还有palm预训练生成模型,在生成任务上取得了和BERT这些知名预训练生成模型相Comparable的模型,还有270亿规模的超大规模中文预训练模型PLUG,可以用作中文的理解和生成,同时也兼具一些denoising的生成能力,然后还有mPLUG多模态理解模型。以及VECO多语言模型,还有space对话模型,star表格理解模型,bert。除这几个之外,还有复现的,以及重新增加一些数据训练的更好的,学术界的知名模型,比如BERT GBT,RoBERTa等等。
2.基础任务模型
然后在通义AliceMind的预训练大模型底座基础之上,引入了基础任务模型,包含文本分类,命名实体识别,机器翻译,对话等,还有OCR的识别和检测,以及文本生、文本纠错,还有完填空等比较基础的一些task。这些基础task基本都是在预训练模型底座基础上,加入下游的任务数据训练得到的。
3.行业应用模型
在基础任务模型上开发了行业应用模型。把收集的业务相关的数据,比如有电商的数据,有医疗的数据,还有一些通信的数据,这些数据去训练得到的很好的行业应用模型也上到了model scope上,这样用户可以有更多的选择空间。ocr行业场景,以及目前nlp使用量比较高的,比如中英、英中翻译行业模型也上线到了model scope上面。
4.model scope 平台—模型即服务
上到model scope去之后,使用起来比较简单,一是可以直接通过模型管理和检索去检索到相关的模型,比如要找命令设计师别的模型,可以直接去检索搜索到命令涉猎模型。检索到之后,可以做一些下载训练,调优等,如果没有训练调优的工作,也可以直接用提供的模型做使用,然后也提供了pipeline推理,通过几行代码可以直接实现模型的推理预测以及部署。除了开源模型之外,还会开源一些数据集,比如训练用到的数据集,以及比较高质量的数据。同时还有一些使用教学的文档,比如训练文档,还有如何推理、测试文档等等。
二、通义 AliceMind 预训练大模型
首先介绍一下通义AliceMind预训练大模型在model scope的上线情况。
1. AliceMind – 技术体系
AliceMind – 技术体系里面包含通用预训练模型StructBERT,生成式预训练模型palm。还有多语言预训练模型VECO,以及超大规模超大中文预训练模型plug。还有多模态相关的StructVLM,以及结构化预训练模型,可以做OCR识别相关的模型。然后还有对话预训练SPACE,以及表格预训练star。
2. 通用预训练模型 StructBERT
首先介绍通用预训练模型StructBERT。StructBERT是在BERT基础上做了一些优化,比如在mask m基础上做一些词级别的绕荣预测以及句子级别的shuffled的预测,同时,在这两个任务基础上,结合mask m做进一步预训练,优化得到的模型,目前,相比于bert、 Robert等都会有更好的结果,同时还训练了中文版本的模型。目前中文bert也是高于现在社区可以拿到的中文bert的模型。
3. 生产预训练模型 PALM
然后还有生产预训练模型PALM。PALM采用无标签文本语料结合autoencoding和autoregression两种预训练方法,针对文案生成、摘要、问答生成等,产生特别设计的预算生成模型,不同于BERTt 5等,同时结合了解和生成,生成任务同时需要理解和生成能力的,所以也增加理解的任务以及生成的任务,同时去优化模型,得到的模型化在摘要等任务上比BERTt 5等模型更高,这是英文场景。同时在中文的场景下也用海量的中文的无监督数据训练中文版本的模型,中文版模型目前测试在摘要等任务上高于现在中文社区的MT 5 BERT等模型。这模型也上线到model scope上,同时除了提供本身预训练模型GPT之外,还提供下游的一些任务,比如文本摘要,还有data test等,这些场景可以供大家直接通过推理去使用,而不需要再去训练模型。
4. 超大规模预训练模型 plug
第三个是超大规模预训练模型plug,plug有270亿的参数,目前上线到model scope上,也是model scope上最大的模型,270亿的plug模型。兼具理解和生成的两种能力,同时可以做NLG下游的理解和生成的多个任务。
然后NLU当时提出在分类榜单上刷新的clued榜单记录,在NLG上在多项业务数据上较state-of-the-art提升8%,同时现在大模型、百亿模型的inference可以做到百亿级别,只有在8卡V版上部署之后,可以做到一点几秒的RT。
现在model scope可以直接体验,同时可以申请下载模型,下载之后可以自己在gpu机器上直接部署,做一些实验测试,而且也支持大模型的finetuning。
5. 多模态预训练 mPLUG
在plug基础上,提出了多模态的预训练模型mPLUG,mPLUG是在成文本的基础上引入了视觉的表示,可以做多模态图文理解和生成的一些任务。mPLUG主要解决多模态模型训练效率低下以及语言信号被跨模态中的长视觉序列淹没问题,这主要是vit结构在切片系列时,如果图片特征过大,在切pass的时候会存在序列长度过长,序列长度过长会导致淹没问题,所以针对这个问题提出了一种新颖的跨模态跳跃连接,跨模态跳跃连接主要是通过在整个多模态融合的blog里面,会结合非对称性的blog attention以及connected attention两种方式,这种非对称的co-attention好处是可以防止文本序列被长视觉序列所淹没,然后同时后面紧跟着加connected attention的程序,因为文本序列本身过短,这样可以防止视觉信息丢失。通过这样一种方式得到了更好的,训练更高效的预训练模型。
预训练因为兼具理解和生成,所以具有开放域的视觉问答生成的能力,现在大多数是由vqa,采用的还是通过限制域值表做生成,去做答案的预测,mPLUG可以做开放域生成。model scope上提供的模型,提供了vqa caption的体验,vqa是训练的最好的模型。在vqa数据集上达到了81.27的模型,模型上可以看到一些样例,样例可以直接在model scope的Demo上做测试。只需要输入图片,输入问题就可以给出答案,因为是开放域的,所以可以得到更多样更准确的答案。
同时模型除了在vqa上之外,还在caption上取得了目前sota的结果,模型是提供在model scope上,有一个Demo可以直接上图片去做一些测试。
6. 多语言 VECO
还有多语言预训练模型VECO,VECO也是兼具理解生成的预训练模型,之前blog是在中文纯文本上来做,而多语言理解可以在中文,英文,西班牙语等等,支持100种语言的理解和生成的预训练模型。这不同于传统的pretrain-finetune范式,是pre-train阶段整合的encoder和decoder。find-tune阶段可以拆分开,类似模块化的一种思想,可以把模型拆成NLU和NLG,如果需要做NLU任务,只需要把NLU部分拿出来,如果做NLG,可以把encoder和decoder都加上去。
然后在国际权威多语言XTREME榜单上排名第一,同时也应用于下游快递电商的一些业务。取得了相比于baseline更好的结果。目前这个模型也上到了model scope上,因为它支持多种语言,所以有一些项目支持的大部分还是中英,如果有一些其它语言的任务或者需要,可以利用veco的模型来做一些实验。现在这个模型也是支持直接pipeline去调用以及训练的能力。
7. SPACE 对话预训练
SPACE 对话预训练,是提出的半监督预训练新范式,主要是向预训练对话模型中注入人类的标注知识,然后从1.0到2.0到3.0,有一些不同的逐渐的升级,现在提供的模型 model scope提供space也支持find-tune,还提供了下游的多个任务直接pipeline。从pipeline可以直接调用。
SPACE1.0,主要是融合一些对话策略知识,2.0融合了语言理解知识,然后3.0相当于统一了理解和生成,和之前的PLUG、mPLUG、VECO整体范式比较像,因为统一理解生成模型,可以解更多的下游任务。在11个国际对话数据集上取得了sota。
8. STAR 表格预训练
STAR表格预训练。可以做表格的问答,除表格的问答之外,还有做单轮的一些表格可以直接问,比如现在有表格,可以问表格里面的一些具体的问题,这个模型也是基于预训练的。在预训练的基础上,1.0是支持单轮的一些表格的问答的能力,然后2.0在单轮的基础上引入了多轮的语言表格问答,在sparc和cosql两个数据集上,text cosql数据集上相比之前最好的模型都有比较大幅的提升,然后这也提供了pipeline可以直接一键text cosql的转化,输入成本可以直接转化成想要cosql,比如查询天气大于25度的城市是哪几个,可以直接返回SQL语句。
9. 中文BERT/RoBERTa/DeBERTa/GPT
然后前面介绍主要是自研的预训练模型,这部分,主要介绍除了自研的一部分之外,把学术界影响力比较大的一些预训练模型在中文场景做重新训练。利用了更多的数据以及更好的大规模丰富式框架,重新训练的模型其实高于目前社区已有的开源java模型,比如这里有一些对比,对比了几个模型,一个是设计训练模型roberta的模型,然后训练的Robert模型在ocnli clude 一些数据集上,比目前社区用的较多的Robert wwM模型效果要更好,在ocnr上高两个点,在其它方面也有一些提升,这是large规模的关系。
然后也提供了base版本,base版本在下游的理解任务上比目前公开的高了接近两个点。这块也全部提供了find-tune的能力,可以直接基于model scope上提供的如何find-tune的实例,可以在自己的数据集上做一些find-tune实验。
10.预训练模型训练-StructBERT
介绍两个典型的模型用于下游训练,可以让大家更容易地使用,如何去做一些训练,第一个预训练模型StructBERT主要用于nlp下游理解类的任务,包括文本分类、相似度、问答、ner等。
理解任务,首先因为本身model scope支持下游数据,里面提供了一些下流数据,可以直接通过model scope的dataset.load的相应的数据,比如load分类的数据,load分类数据之后,数据本身可能要做一些处理,这里还提供了几种处理的方式,这是对文本分类模型的处理,然后将model ID指定,就可以对载入的训练数据直接做处理,处理之后,然后通过配置一些参数,配置完train-dataset和model ID之后,就可以直接开启trainer,trainer就可以开启训练。其实,通过下图里几张代码就可以完成提供的数据的训练,如果有一些自己的数据也可以通过这种方式,也可以自己构造train-dataset,然后复用下面的训练流程,训练自己需要的模型。
11.预训练模型训练-PALM
上面介绍理解类模型,就是可以用于下游理解类任务的StructBERT。这里介绍用于nlp下游生成类的任务。可以去训练文本生成,摘要生产,问题生成等模型,这和上面的一样,用model scope上面数据集作为事例,先录数据,录完数据之后,得到train-dataset 和eval-dataset,得到两个dataset之后,构建config,然后config指定采用的model,这里采用的是model scope上base line的paln2.0的base的model,然后构建train-dataset 和eval-dataset。
这样之后,然后再build一个trainer,就可以开启训练,训练过程中会去每人做评估。通过几行代码就可以实现自己文本生成,摘要生成,和生成相关的训练。同时这里也可以切换模型,如果现在是采用base模型训练,如果想切换到large也可以把model ID直接变成large就可以去做训练。
三、基础模型
上面介绍完预训练模型的几个模型,然后接下来介绍基础模型。
1. 机器翻译
基础模型首先介绍机器翻译,机器翻译是基于连续语义增强的神经机器翻译模型。Maas进展目前630完成了推理pipeline的开发,并开放了英德学术模型,730接入trainer并开放中英的商业模型。相当于是把中英、英中的模型全部提供出去,背后的模型其实在公开数据集上测试都比目前像google,还有翻译君这些模型效果要更好一些。
可以通过四行推理代码,推理pipeline的代码,直接实现中英的翻译模型,如果有一些中英的数据的翻译需求,可以通过先调用pipeline,然后再调用tasks,tasks指定translation就可以实现翻译的任务。然后翻译可以直接调用传入sequence就可以得到输出。
然后背后的模型其实是通过连续语义增强的神经机器翻译模型,和传统的数据增强方法不同的是,在模型测去做相当于语义的增强,然后提升模型的一些鲁棒性。
2. 文本分类
第二个基础应用模型是文本分类,文本分类背后依赖的是预训练的底座,依赖strucbert预训练底座,然后再加训练的一些优化方法,然后得到了开源的文本分类模型,开源的分类模型任务包含情感分类、自然语言推理、相似文本匹配等等。
应用目前是可以支持直接通过四行代码直接调用,得到相似度的计算模型,通过调用背后已经训练好的句子相似度的 base模型,传入两个句子就可以得到或返回对应这两个句子相似的概率。这个模型也是支持除了提供训练好的模型之外,也提供了用户发现能力,用户可以按照上面介绍的预训练模型StructBERT训练的方法,在自己数据集上做一些训练和优化。
3. Zero-shot 文本分类
紧接着是Zero-shot的文本分类,它和上面文本分类不一样的是上面的需要提前定义好分类的标签任务等等。但这个文本分类是针对Zero-shot假设的场景,比如一个句子,直接拿过来,就可以给做分类类别的验证。使用方法主要是针对先调用背后训练好的Zero-shot的classfication的模型,然后再输入句子,同时输入想要待分类的标签的list,给定list之后会返回list对应的概率,比如下图给句子之后,同时给了list,返回list里面概率最高的就是旅游,这句话觉得适合旅游最相关,它的概率最高,这样得到这句话模型给出的分类的标签就是旅游。同时标签是可以用户随便自定义的,所以这也是为什么叫Zero-shot的文本分类。
4. 预训练模型-语义匹配
然后后面还有语义匹配,也是基于预训练模型的语义匹配,主要做篇章排序任务,是基于预训练模型的dual-encoder & cross-encoder两种方式。
dual-encoder主要是双塔的召回,cross-encoder主要用于金牌的排序,对双塔召回进行排序。然后cross-encoder相比于传统的bm 25、bert- base效果提升还是非常明显的,MRR@ 10以及r@1000都比传统的bm 25效果要更好一些。然后course code也直接基于cross-encoder的方式。这种精华方式相比于cocodenser模型MR10高三个点左右,目前ltfr排序也提供了中文和英文两个版本,如果有排序的需要,可以直接调用训练好的中文和英文的模型去做预测,同时也提供了一些翻旧的一些能力,可以基于比如有一些query和docker的数据,可以基于提供的cross-encoder的模型去做一些find-tune。
5.命名实体识别
然后介绍一下nlp比较经典的task,命名实体识别。命名实体识别提供了很多模型,包含通用领域的一些模型以及各种行业应用等场景的一些ner的模型。背后依赖技术主要是基于检索增强的实体识别的技术。
通过多视角学习,降低测试阶段的检索依赖,然后检索,主要是检索一些外部知识,对外部知识做完检索之后。把这些知识和输入的要命名识别的序列去做拼接,拼接完之后输入到背后的训练模型Struct BERT里面,然后在CF层上面去做最后的ner的识别分类预测。现在其实已经支持中文的多个行业,同时还支持英语,多语言等能力,同时,除了transform base的模型之外,还支持lstm模型,这种性能比较高的模型。
背后依赖的技术其实在semeval公开的比赛中排名第一。同时,除了把一些公开的ner,通用的ner模型上线之外,还开放了行业的一些模型、领域、行业语种等各个规格模型,其实现在已经陆续上线。因为ner其实优化的都是比较好的一些模型,所以这块只是提供了pipeline的推理能力,用户可以根据自己的场景需求,比如现在有一些娱乐领域、新闻领域的一些实际名词要识别,可能调用的就是选择对应场景的模型去做预测。
6. 中文基础词法模型-中文分词/词性标注
紧接着是中文分词相关的基础词法模型,中文分词主要是有设计的struct BERT的基础上加入一些词法任务,引入一些无监督统计编辑信息来提升中文词法任务的准确性,其实背后还是基于通用的struct BERT底座,在此基础上做了一些下游数据以及模型本身的优化。
然后,目前其实已经上线了一些base版本base lite/tiny等版本模型。因为分词本身作为基础,其实优化的准确率已经很高了,所以目前提供的是pipeline推理能力,用户可以根据不同的场景,因为提供了不同场景的分词,可以根据不同场景去从pipeline调用。这也是在一些公开的数据集上做了一些评测,就是模型在公开数据上其实高于目前的一些sota模型,然后除了这个公开数据的时候,还有一些领域的数据集,领域数据集训练模型也是提供出去。
7. 文本纠错
紧接着介绍文本纠错的模型,纠错是基于生成预训练的模型做的文本纠错,目前开放的是中文的通用文本纠错。比如这块提供的demo是“我在杭州溪湖区上学”这些写的demo直接可以给出错的地方,以及给出推荐的正确的答案。同时除了demo之外,还提供了推理的pipeline可以直接调用推理去做预测。
然后相对结构下相比于sota模型,在nlpcc纠错的大家去测试比较多的数据集对比,相比于一些sota的模型,其实在f0.5上有四点的提升。
8.OCR 检测
上面介绍的主要是nlp的一些基础的task。还有上线OCR检测以及OCR识别的一些基础模型。
OCR检测提供的是文字块聚合成行的文字检测的方案,可以传入图片,可以把里面的所有的文字块检测出来。目前开源的是中英文,还有多语言场景的一些文字行单词检测的模型,然后对OCR检测模型和同类目前开源的一些其它开源设计模型做了一些对比, paddle OCR等等,然后再行检测的场景以及单词检测多语言场景,其实都是有比较明显的效果提升,也支持用户之间利用pipeline去调用接口,然后返回对应的检测的内容。
9. OCR 识别
除了检测之外,还提供OCR识别,识别主要是针对图片里面的文本去做一些识别,主要识别图片里面的文本信息,背后的模型化主要通过卷积模型加transformer模型结合的一种方案。
卷积模型主要是提取设计特征,提取设计之后,会通过transformer语义建模对文本序列做预测。这里提供的是通用场景的文本预测模型,下图可以看到只提供图片,就可以正确的返回结果,然后text也是调用pipeline之后对应的推理模型,去返回的推理框架。最后outputs输出的recognition串。
然后这也对比了一些同类的开源模型,包括paddle和一些学术界公开的sota模型,在英文的str测试集以及中文场景测试集上其实都有一些比较明显的提升。
四、应用模型
后面可能介绍一些应用模型。应用模型目前提供的主要是几个领域。
1.电商
(1)、国内电商
国内电商包含电商NER,以及公有云调用TOP 3,以及计划390上线,其实目前大部分已经上线到了model scope上面。
还有电商的情感分析、电商的分词等。其实背后方法主要是基于上面介绍的比如ner基于结合检索知识增强的ner模型,同时利用电商的一些数据对模型做训练之后,上线到model scope上。电商情感分析也是在StructBERT通用模型基础上,引入一些电商的情感数据去做一些训练得到的模型。目前,电商相关的模型其实已经基本上到model scope上去。还有因为电商其实主要的是国内的电商模式,还是中文的相关的模型。
(2)、跨境电商
还有一部分是跨境电商的模型,跨境电商主要模型还是包含这几个,ner,分词,以及query ner这几个方向,只是语言支持的更多,除了支持多语言,多语言包含一些大的语言站,比如牙语、德语、法语、俄语等,然后除这些之外,还支持一些小语种,小语种和包涵东南亚的一些语言,主要是东南亚一些小语种的支持。
2. 机器翻译
(1)、通用的翻译
机器翻译前面其实也介绍到。一方面提供了通用的翻译模型,包含通用的中英、以及用英中的翻译,还有英德等等这些通用的翻译。同时还提供了行业的业模型,行业模型主要是一些,比如上面提到电商行业等行业,不同行业其实它们对翻译的这种需求不一样,结果词等方面,使用的词的一些使用词不太一样,所以也提供了一些行业模型的翻译模型。除此之外,这几个模型都已经上线。
(2)、相关应用
除了几个通用翻译模型之外,其实还有一些翻译相关的模型,比如翻译后有一些文本流畅度有一些看起来不是人工写出来的语言,这些问题,也有一些自动编辑的模型,对翻译后的一些文本进行自动的编辑,编辑之后得到的模型更加的流畅。
同时,除了自动编辑模式之外,还提供质量评估,模型质量评估主要是对翻译的句子的质量做评估,然后打分,因为之前在生成场景可能采用的一些评估方式,主要是基于一些自动评价指标,比如glue,superglue。通过计算词频这些信息得到的score分数,这些可能评估起来没有那么的准确,所以这也提供了翻译质量评估,更加准确的去评估翻译后的语句和原始source的语句的相关性。
3. OCR
(1)、通用场景OCR
然后还有OCR场景。上面其实介绍的是通用场景OCR,包含手体识别,印刷体识别,自然场景识别这些比较通用的场景的OCR的模型,这些场景可以用于大部分,可以覆盖大部分的OCR识别检测的需求。
(2)、行业场景OCR
同时还提供了行业的场景模型,比如专门针对某某领域的,比如图中提到的车牌的识别,表格的识别。对这些专有领域的这些内容去做相当于在通用基础上利用专有的场景做对象的模型的优化以及训练。这样得到的识别的相比于通用场景在车牌识别、表格识别上准确率会更高。还可以根据自己的场景去做模型的选择,然后pipeline都是可以互用的,只是可以更换更加符合实际场景的模型。
五、阶段总结&未来规划
1. 阶段总结
(1)、上线 model scope
然后阶段总结,目前其实上线model scope上模型,截至目前已经上线了,有接近70+的模型,包含了nlp的基础应用模型。然后上面介绍,比如ner,翻译等分词等这些模型,除了这些之外还有翻译、OCR等模型也上线到model scope上。
(2)、爆款模型
目前也推出了几个比较爆款模型,就是基础研究模型,目前看起来效果比较好,应用比较广的模型作为爆款模型,目前选择十三个模型做技术研究潜在的爆款模型,这里面主要是一些预训练模型,比如StructBERT可以做JAVA的nlp理解,多个任务比如文本分类,文本相似度,ner等等,现在因为本身训练的模型是比现在社区中其它的模型要更好,所以觉得这可能成为潜在的爆款模型,同时还要预训练生成模型palm也作为技术研究的爆款模型。
除了基础模型之外,还有一些行业领域模型,也是JAVA的爆款模型里面,挑选主要是从公有上使用比较多的一些模型,就是在调用或者行业研究比较多的,行业领域模型研究比较多的场景加入进来。目前加起来总共有23个模型是主推的模型。
(3)、数据集上传
还有数据集上传,数据集上传目前,因为10个行业模型模型作为潜在爆款模型,所以数据上传的时候也上传了一些对应的数据集,比如在行业有一些数据集,同时还把基础研究的一些数据集也上传到上面,后面会更加的丰富model scope上面的数据集,然后更方便大家去做一些训练,无线下载等等。
2. 未来规划
(1)、上线model scope
未来规划。现在其实已经上线了,有70+的nlp的一些模型,然后后续计划去丰富现有的一些领域和场景的支持,比如后续上线的30+里面还会有支持更多的领域场景,比如上面提到了会对翻译相关的模型,比如一些质量检测,质量评估文本,文本检测下这种模型加入进来,然后还有就是会加入一些东南亚小语种的模型,去尽量丰富、去尽量满足现在用户的需求,覆盖更多、更广的语言和场景。同时后面还会去上线比如更好的中文GB 3的模型供大家去做一些研究,denoising 、premute等实验。
(2)、新增模型&爆款模型
然后还有新增模型,主要是从model scope开发者用户角度出发,更多是从大家需求出发。从而选择里面更好的潜在爆款模型,所以不局限于资源原创,如果有一些更好的模型,其实后面会有一些更好的大家提出的模型也会做一些在model scope上的复现,或者加载到model scope上来,这样用户可以更快地去接触到这些目前比较爆款的模型。
(3)、下游应用和文档
还有下游的一些应用和文档,目前正在积极建设中,因为本身现在主要的一些模型介绍还是在model cart页面,后续会优化下游应用和文档,把模型去做更多的使用,因为应用才是主要让大家进来之后能够更方便的去使用模型,包含这些nlp的技术模型,以及通过直接调pipeline,以及训练等等。
主要其实就是分享nlp在model scope上面,上模型的一些情。况涵盖了预训练模型,预训练大模型比如上面提到的StructBERT,PALM这些模型等,都可以支持,大家现在不管是用推理,pipeline调用,还是调用demo,以及用自定义数据去训练,这些都是支持的。还介绍了一些基础的模型,比如ne,r分词。还有翻译,ocr等等这些比较基础的模型也是比目前社区的效果更好的模型提供给大家使用,最后其实介绍除了通用技术模型之外,也有一些行业的模型提供出去,比如娱乐新闻等等领域的一些模型。可以通过一些搜索,检索的方式去找到自己需要的模型。
本课目前的分享就到这里,大家如果有什么问题,可以提出来。