模型社区实战课程|学习笔记

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 简介:快速学习模型社区实战课程

开发者学堂课程【ModelScope pretrained model:模型社区实战课程】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1199/detail/18152


ModelScope pretrained model


内容介绍:

一、多模态预训练大模型背景&价值

二、通用统一多模态预训练 M6-OFA

三、中文多模态基础模型 Chinese CLIP

四、大规模中文多模态数据集和评测基准

五、总结&近期发布


一、多模态预训练大模型背景&价值

随着2017年的时候,Transformer 这样基于 self attention 的这种特殊的架构提出,使大家可以看到,随着模型规模的持续扩大,可以看到模型效果的持续增长,并且它能够很好的进行数据并行和模型并行,把模型规模以及数据量给它扩上去。

image.png

 也可以看到预训练逐渐成为 AI 发展的主流,如果朝着需要的人工智能的方向,预训练这种大量的学习无监督数据的这种方式,会是一个非常可行的方案。

当进行微调的时候,只需要在顶上加上一个相应的分类层,就能够把此前学习过的知识,给它调动起来,然后取得一个比较好的下游的微调分类的效果。那么这种非常简单的范式,其实也是替代掉传统的 train well 的范式,从此开始走向了 between 再加下游 function 的这样一种模式。

image.png

所以其实类本化也扮演着非常基础模型的角色,这也是今年在做相关的研究,会推出 offer Chinese CLIP 这两个系列的工作的原因,两者是各有其优势。

image.png

所以在这相关方面,其实也做了比较多相应的工作。


二、通用统一多模态预训练 M6-OFA

接下来给大家介绍一下这一年多的相关进展,主要首先介绍今年在2022提出的 OFA 的工作,然后这是 M6系列的最新的工作。

1.多模态预训练待解决问题

(1)预训练往往缺少对海量单模态数据的利用

所以这里称为他们的 offer,其实本质上是一个通用统一的多模态域训练模型。那么通用统一其解决的是什么样的问题呢?

2.通用统一模型应当满足的性质

所以在工作当中,其实提出了三个比较重要的性质。如果今天要打造一个通用统一的模型应当满足这三个性质。

3.OFA(One-For-ALL)模型

这其实在LP里面已经有比较多的一些突破了,近期可以看到像 fun、T0以及最新的 national extra me two 把1600个 LP 的任务,都放到一个模型去进行训练,也取得了非常好的效果。

4.OFA 三大统一

这里的工作其实主要就是做了三个方面的统一,这三个方面的统一称为 IO 统一,模态统一以及任务统一,这都是为了解决刚才所说的那个相应的目标。

image.png

所以其实核心点还是在于将不同的任务的话都统一到一个形式,这样就能够让多任务去进行训练,当然 OFA 现在其实目前只用了八个任务去做训练。后续的工作其实是想在 OFA 的基础上,再更进一步将其融入更多样的任务中去进行训练,甚至不只是包含图文两种模态,这样模型化才能够去学到更多一些知识,然后实现融会贯通。

image.png

5.预训练数据

这里也想看看真正的去学习广泛识别知识的模型能够起到什么样的效果。这里是主要介绍 OFA 模型设计。具体做实践的同学可能会比较关心的细节是 OFA 这个模型化用了哪些预训练的数据,其实做这个工作的初衷是偏学术的工作。

6. 模型规模

那么同时其实除了在数据方面,就是在模型方面,其实做了一些比较细致的多个规模的模型研究,这里相比于此前一些工作,可能只有 base 和 large 规模其实还做了更小的模型,这里包括 tiny 和 medium 的模型,具体的参数其实也都列在这上面。

那么 base 和 large 模型在这里的对标对象其实是像 bird 和 but 这种。

7.效果:多模态理解

这里其实包括以下一系列的任务,首先就是动态理解的任务,这里主要做的两个数据集,一个是经典的 VQA,第二个是 SNLI 和动态结合的数据集,SNLI -VE,那么在 VQA 的数据集上面在推出的时候,其实是达到了 SOTA 的效果,那么不发 huge 在 test step 和 test standard 都达到82.0

image.png

8.效果:图像描述生产

第二个是图像描述生成,在图像描述生成的榜单 MSCOCO 的官方榜单上大概是维持了两个多月的第一名的水平。

9.效果:图像生成产出高质量图片

另外一方面还做了比较有挑战性的任务,任务其实不是 OFA 主要做的任务,而是去 transport 场景去看看其是否同样能够给它做好,因为核心理念是在于模型有一个预训练任务叫做 image in feeling,也就是说抠掉一些 patch,让它去还原这些 patch,还原方式就是生成它对应的 liquid 的 code。

image.png

这里也希望追求更好的效果,所以在这个基础上进一步的去在更大的数据上去进行,发现其实在一些绘画方面会展现出比较好的效果。可以看到 OFA 生成出来这些图片整体的质量还是比较高的。

image.png

10.多模态模型同样能在单模态任务取得突出效果

另一方面还会去评估 OFA 的能力,其实就是它单模态任务的能力,因为相比于此前的一些模型主要是在图文 pair 的数据上去做预训练。那预训练其实在图文 pair 基础上还加入了大量的单模态的数据

11.零成本任务&领域迁移

这是 OFA 在单模态领域取得的一些表现,还有一个点是会去考虑 OFA 这样的多任务的模型在零样本的场景中的表现如何,以及说迁移到一些新的领域上是否也能够取得比较好的表现。在这里零样本方面,除了 benchmark 的分数以外。

12.零成本任务&领域迁移

这里看到其一定的迁移到新任务的能力。另一方面也去观察模型迁移到新领域方面的一些能力。

后面其实还会再持续的去扩增这个数据规模以及任务规模,让它能够产生出更强的迁移和泛化的这种能力。

13.OFA 持续升级:轻量化调优

除此之外在 OFA 的基础上,其实也是不断的在做持续的升级。那么升级包括几个方面,第一个方面就是轻量化调优的方面,因为 OFA 的模型化,比如像 large 模型,甚至是 huge 模型,其实它的规模化对于很多用户来说是不小的,这么大的规模如果想让其动起来,其实在一些多模态这些数据集上面成本其实是不小的,所以其实是开发了相应的 fortune 的这种方法,核心其实就是把大模型的参数化冻住,让其不要进行调优。

image.png

14.OFA 持续升级:OFA增加中文版

同时 OFA 的升级包括 OFA 不仅仅在英文的公开数据集上去做,因为OFA 有很多用户都是国内的用户,所以其实也增加中文版。因为去年其实做 M6这个系列,在中文的大规模训练方面,有了非常多的积累,包括数据的积累,以及模型训练的积累。所以把这些经验迁移到 OFA 上面,也是一个比较自然的事情,用比较大规模的数据去对 OFA 进行训练,得到 BASE和 large 的规模和模型。那么在 benchmark 上面,一个是此前推出的牧歌的系列 action 上取得分数上的很好的效果。

15.OFA Github 开源以及 Demo 建设

这里的把相关的一些链接,包括 paper、code、ModelScope、Demo、Colab、checkpoint等等可以直接下载这个链接都在这里做相应的提供。

Paper:http:/axri.org/abs/2202.03052Code:https://github.com/0OFA-Sys/OFAModelScope:https://www.modelscope.cn/modelsDemo:https://huggingface.co/ofa-sysColab:https://github.com/OFA-Sys/OFA/blob/main/colab.mdCheckpoints:https://github.com/QFA-Sys/OFA/blob/main/checkpoints.md

目录
相关文章
|
5月前
|
消息中间件 Java
ThreadLoop实践学习笔记
这篇文档分析了两种类型的线程循环(ThreadLoop):基础TaskLoop和面向Event的实现。基础TaskLoop处理回调函数包裹的任务,支持异步处理、定时和重复任务,适合简单工作线程。面向Event的ThreadLoop增加了对文件描述符的监听,如Socket和Timer,适用于事件驱动的场景,如muduo的Channel。进阶TaskLoop包括MsgQueue,用于异步消息处理,通过队列和事件触发;Timer则利用Timer Fd创建定时器任务。最后提到了ThreadLoopMng,一个线程池管理器,负责多个ThreadLoop的生命周期和任务分配。文档提供了相关代码示例链接。
|
自然语言处理 编译器 Linux
C++学习笔记(一)——入门基础(一)
C++学习笔记(一)——入门基础
C++学习笔记(一)——入门基础(一)
|
人工智能 搜索推荐 物联网
文生视频黑马AnimateDiff 魔搭社区最佳实践教程来啦!
近1个月来,AnimateDiff 无疑是AI动画/视频生成领域的一匹黑马,以“效果丝滑、稳定、无闪烁”等好评斩获“Stable Diffusion封神插件”称号。
|
消息中间件 前端开发 NoSQL
10、课程发布
课程发布后将生成正式的课程详情页面,课程发布后用户即可浏览课程详情页面,并开始课程的学习。
137 0
10、课程发布
|
存储 安全 编译器
C++学习笔记(一)——入门基础(二)
C++学习笔记(一)——入门基础
C++学习笔记(一)——入门基础(二)
|
存储 机器学习/深度学习 自然语言处理
检索技术核心-极客课程笔记
检索技术核心-极客课程笔记
222 0
检索技术核心-极客课程笔记
|
人工智能 开发者 Python
模型社区实战训练营首开,开源让代码更有趣!
阿里云开发者学堂联合modelscope社区推出了模型实战系列训练营,培养AI开发者从各种模态的模型选择,只需要懂得python,也可以玩转人工智能模型。
|
编解码 视频直播 开发者
案例和课程总结|学习笔记
快速学习案例和课程总结
案例和课程总结|学习笔记
|
传感器 人工智能 搜索推荐
互联网时代、课程简介 | 学习笔记
快速学习互联网时代、课程简介,介绍了互联网时代、课程简介系统机制, 以及在实际应用过程中如何使用。
互联网时代、课程简介 | 学习笔记
|
移动开发 Android开发 开发者
最佳场景和实践|学习笔记
快速学习最佳场景和实践
137 0
最佳场景和实践|学习笔记

热门文章

最新文章

相关实验场景

更多