作者:周畅,阿里巴巴达摩院智能计算实验室
一、 OFA简介
2021年,达摩院智能计算实验室开发了M6动态模型。一方面,研究万亿级的大模型低碳训练技术;另一方面,研究大模型服务化技术,并在各行各业应用了文生图原子能力,以及图到文原子能力。
2022年,达摩院更关注多模态模型如何能够更通用,所以今年主打的模型系列叫OFA,希望它能像人一样,只使用一个模型就能处理尽可能多的日常事务。
目前,通用模型有两条技术路线。第一种是表征模型,它只做一件事情,把不同模态的数据,从原始Format映射到深度学习模型的数据分布上。
第二种技术路线是GPT-3,即通用任务模型。它是历史上第一个能够把任务描述直接建模在模型里,并取得真实效果的模型。
2022年2月,达摩院推出了VL prototype,并开源了源代码,在半年多的时间里,收获了不少国内外团队的关注和使用。
OFA对于所有任务会共享一套结构,它和人一样通过听任务指令,就能完成日常基本的跨模态数据操作。OFA试图将模型设计和任务设计解耦开来,让使用者更关注任务表示,而不是AI模型设计。
如上图所示,给模型一张图,然后用一段文本叙述图片的内容。如果用户在OFA的基础上进行识别,只需要一行代码即可。
由于OFA是基于instruction做多任务预训练,模型类似T0能够根据对任务指令的理解,做一些没有学过的任务。如上图所示,模型只需要根据输入的问题以及给定的坐标进行离散化表示,就能做出相应的正确回答。
目前,OFA-speech在中文AISHELL-1上取得大幅优势,dev/test集字错误率仅为1.6%/1.9%。
如上图所示,OFA可以通过文本的形式,解决数独问题,准确率高达100%。
除此之外,OFA还可以进行视频游戏。如上图所示,用户可以输入一段Instruction,根据视频逐帧采取相应的行动。
如上图所示,OFA还可以驱动一个3D数字人,且仍然使用相同的模型。当用户输入一段话后,它可以根据指令做一个3D motion。最后,进行渲染。
目前,OFA在ModelScope社区开源的模型主要有OFA图像描述、OFA视觉问答、OFA文生图模型等等。
OFA是达摩院M6团队研发的通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态和任务。如图片生成、视觉定位、图片描述、图片分类、文本生成等。
该工作已经发表在ICML 2022上,得到了Google Brain,DeepMind,Microsoft等一线多模态大模型玩家的引用和关注。目前,已经有60多个学术界论文引用了OFA。
OFA践行了One For All的理念,同时也在多模态和单模态任务上都得到了较好的结果,如Image Captioning(CIDEr 154.9)、VQA(acc 82.0)、ImageNet-1k(top-1 acc 85.6)、Gigaword(Rouge-1 39.81)等等。
目前,ModelScope上面所有已经上传的模型和任务,都可以在下面导航表格看到,点击链接可以跳转到相应Model Card。
与此同时,OFA还有在线体验功能。用户可以上传图片,进行体验。
如上图所示,是基于ModelScope上的OFA通用的预训练模型底座,通过二次开发得到图像文字识别微调模型,并使用基础模型进行推理。用户可以通过构造trainer,并基于图像文字识别数据集进行训练。