魔搭中文开源模型社区：模型即服务-通用多模态AI构建（上）-阿里云开发者社区

魔搭中文开源模型社区：模型即服务-通用多模态AI构建（上）

2023-05-23 1255

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

视觉智能开放平台，分割抠图1万点

简介： 魔搭中文开源模型社区：模型即服务

作者：周畅，阿里巴巴达摩院智能计算实验室

2021年，达摩院智能计算实验室开发了M6动态模型。一方面，研究万亿级的大模型低碳训练技术；另一方面，研究大模型服务化技术，并在各行各业应用了文生图原子能力，以及图到文原子能力。

2022年，达摩院更关注多模态模型如何能够更通用，所以今年主打的模型系列叫OFA，希望它能像人一样，只使用一个模型就能处理尽可能多的日常事务。

目前，通用模型有两条技术路线。第一种是表征模型，它只做一件事情，把不同模态的数据，从原始Format映射到深度学习模型的数据分布上。

第二种技术路线是GPT-3，即通用任务模型。它是历史上第一个能够把任务描述直接建模在模型里，并取得真实效果的模型。

2022年2月，达摩院推出了VL prototype，并开源了源代码，在半年多的时间里，收获了不少国内外团队的关注和使用。

OFA对于所有任务会共享一套结构，它和人一样通过听任务指令，就能完成日常基本的跨模态数据操作。OFA试图将模型设计和任务设计解耦开来，让使用者更关注任务表示，而不是AI模型设计。

如上图所示，给模型一张图，然后用一段文本叙述图片的内容。如果用户在OFA的基础上进行识别，只需要一行代码即可。

由于OFA是基于instruction做多任务预训练，模型类似T0能够根据对任务指令的理解，做一些没有学过的任务。如上图所示，模型只需要根据输入的问题以及给定的坐标进行离散化表示，就能做出相应的正确回答。

目前，OFA-speech在中文AISHELL-1上取得大幅优势，dev/test集字错误率仅为1.6%/1.9%。

如上图所示，OFA可以通过文本的形式，解决数独问题，准确率高达100%。

除此之外，OFA还可以进行视频游戏。如上图所示，用户可以输入一段Instruction，根据视频逐帧采取相应的行动。

如上图所示，OFA还可以驱动一个3D数字人，且仍然使用相同的模型。当用户输入一段话后，它可以根据指令做一个3D motion。最后，进行渲染。

目前，OFA在ModelScope社区开源的模型主要有OFA图像描述、OFA视觉问答、OFA文生图模型等等。

OFA是达摩院M6团队研发的通用多模态预训练模型，使用简单的序列到序列的学习框架统一模态和任务。如图片生成、视觉定位、图片描述、图片分类、文本生成等。

该工作已经发表在ICML 2022上，得到了Google Brain，DeepMind，Microsoft等一线多模态大模型玩家的引用和关注。目前，已经有60多个学术界论文引用了OFA。

OFA践行了One For All的理念，同时也在多模态和单模态任务上都得到了较好的结果，如Image Captioning（CIDEr 154.9）、VQA（acc 82.0）、ImageNet-1k（top-1 acc 85.6）、Gigaword（Rouge-1 39.81）等等。

目前，ModelScope上面所有已经上传的模型和任务，都可以在下面导航表格看到，点击链接可以跳转到相应Model Card。

与此同时，OFA还有在线体验功能。用户可以上传图片，进行体验。

如上图所示，是基于ModelScope上的OFA通用的预训练模型底座，通过二次开发得到图像文字识别微调模型，并使用基础模型进行推理。用户可以通过构造trainer，并基于图像文字识别数据集进行训练。

魔搭中文开源模型社区：模型即服务-通用多模态AI构建（上）