魔搭中文开源模型社区:模型即服务-通用多模态AI构建(上)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭中文开源模型社区:模型即服务

 

作者:周畅阿里巴巴达摩院智能计算实验室

 

一、 OFA简介

 

image.png

 

2021年,达摩院智能计算实验室开发了M6动态模型。一方面,研究万亿级的大模型低碳训练技术;另一方面,研究大模型服务化技术,并在各行各业应用了文生图原子能力,以及图到文原子能力。

 

image.png

 

2022年,达摩院更关注多模态模型如何能够更通用,所以今年主打的模型系列叫OFA,希望它能像人一样,只使用一个模型就能处理尽可能多的日常事务。

 

image.png

 

目前,通用模型有两条技术路线。第一种是表征模型,它只做一件事情,把不同模态的数据,从原始Format映射到深度学习模型的数据分布上。

 

第二种技术路线是GPT-3,即通用任务模型。它是历史上第一个能够把任务描述直接建模在模型里,并取得真实效果的模型。

 

image.png

 

2022年2月,达摩院推出了VL prototype,并开源了源代码,在半年多的时间里,收获了不少国内外团队的关注和使用。

 

OFA对于所有任务会共享一套结构,它和人一样通过听任务指令,就能完成日常基本的跨模态数据操作。OFA试图将模型设计和任务设计解耦开来,让使用者更关注任务表示,而不是AI模型设计。

 

image.png

 

如上图所示,给模型一张图,然后用一段文本叙述图片的内容。如果用户在OFA的基础上进行识别,只需要一行代码即可。

 

image.png

 

由于OFA是基于instruction做多任务预训练,模型类似T0能够根据对任务指令的理解,做一些没有学过的任务。如上图所示,模型只需要根据输入的问题以及给定的坐标进行离散化表示,就能做出相应的正确回答。

 

image.png

 

目前,OFA-speech在中文AISHELL-1上取得大幅优势,dev/test集字错误率仅为1.6%/1.9%。

 

image.png

 

如上图所示,OFA可以通过文本的形式,解决数独问题,准确率高达100%。

 

image.png

 

除此之外,OFA还可以进行视频游戏。如上图所示,用户可以输入一段Instruction,根据视频逐帧采取相应的行动。

 

image.png

 

如上图所示,OFA还可以驱动一个3D数字人,且仍然使用相同的模型。当用户输入一段话后,它可以根据指令做一个3D motion。最后,进行渲染。

 

image.png

 

目前,OFA在ModelScope社区开源的模型主要有OFA图像描述、OFA视觉问答、OFA文生图模型等等。

 

image.png

 

OFA是达摩院M6团队研发的通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态和任务。如图片生成、视觉定位、图片描述、图片分类、文本生成等。

 

该工作已经发表在ICML 2022上,得到了Google Brain,DeepMind,Microsoft等一线多模态大模型玩家的引用和关注。目前,已经有60多个学术界论文引用了OFA。

 

OFA践行了One For All的理念,同时也在多模态和单模态任务上都得到了较好的结果,如Image Captioning(CIDEr 154.9)、VQA(acc 82.0)、ImageNet-1ktop-1 acc 85.6、Gigaword(Rouge-1 39.81)等等。

 

image.png

 

目前,ModelScope上面所有已经上传的模型和任务,都可以在下面导航表格看到,点击链接可以跳转到相应Model Card。

 

image.png

 

与此同时,OFA还有在线体验功能。用户可以上传图片,进行体验。

 

image.png

 

如上图所示,是基于ModelScope上的OFA通用的预训练模型底座,通过二次开发得到图像文字识别微调模型,并使用基础模型进行推理。用户可以通过构造trainer,并基于图像文字识别数据集进行训练。

 


相关文章
|
1天前
|
人工智能 自然语言处理 API
深度融合与创新:Open API技术促进AI服务生态构建
【7月更文第21天】在数字化转型的浪潮中,人工智能(AI)已从概念探索走向实际应用,深刻改变着各行各业。Open API(开放应用程序接口)作为连接技术与业务的桥梁,正成为推动AI服务普及和生态构建的关键力量。本文将探讨Open API技术如何通过标准化、易用性和灵活性,加速AI服务的集成与创新,构建一个更加丰富多元的AI服务生态系统。
20 2
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
39 9
|
2天前
|
人工智能 数据挖掘 机器人
同样是人工智能 客户在哪儿AI和GPT等大模型有什么不同
客户在哪儿AI生产的是企业全历史行为数据,同时还针对ToB企业,提供基于企业全历史行为数据的数据分析服务。
|
2天前
|
人工智能 IDE Devops
当「软件研发」遇上 AI 大模型
大模型和软件工具链的结合,使软件研发进入下一个时代。那它第一个落脚点在哪?实际上就是辅助编程,所以我们就开始打造了通义灵码这款产品,它是一个基于代码大模型的的 AI 辅助工具。本文会分为三个部分来分享。第一部分先介绍 AIGC 对软件研发的根本性影响,从宏观上介绍当下的趋势;第二部分将介绍 Copilot 模式,第三部分是未来软件研发 Agent 产品的进展。
|
6天前
|
机器学习/深度学习 人工智能 算法
人工智能伦理框架:构建AI的道德指南针
【7月更文挑战第16天】随着人工智能技术的快速发展,其对社会的深远影响引起了广泛关注。本文探讨了构建人工智能伦理框架的必要性,并提出了一套基于四大原则的伦理指导方针:透明度、公正性、责任归属和隐私保护。文章旨在为AI系统的设计与部署提供道德指南,确保技术进步与人类价值观相协调。
10 3
|
6天前
|
人工智能 自然语言处理 搜索推荐
大模型时代,如何让AI客服“听懂人话”、“更有温度”?
大模型时代,如何让AI客服“听懂人话”、“更有温度”?
|
2天前
|
人工智能 领域建模
AI计算机中的大模型评估体系可能会有何变化
AI计算机中的大模型评估体系可能会有何变化
|
4天前
|
机器学习/深度学习 人工智能 Python
性能调优:提升AI模型准确率的策略
【7月更文第17天】在人工智能的世界里,打造一个预测精准、表现优异的模型就像是烹饪一道美味佳肴,不仅要选对食材(特征),还得掌握火候(超参数调整)和调味技巧(正则化)。今天,我们就来聊聊如何通过《性能调优:提升AI模型准确率的策略》,让我们的AI模型变得更加聪明伶俐。
14 0
|
13天前
|
机器学习/深度学习 人工智能 自动驾驶
「AIGC」Agent AI智能体的未来:技术、伦理与经济的交汇点
Agent AI智能体融合机器学习与深度学习,推动社会效率与创新,但也引发伦理、法律及就业挑战。技术上,它们能自我优化、积累知识,如自动驾驶汽车通过学习改善驾驶。伦理上,需建立AI准则,确保透明度和责任归属,如医疗AI遵循道德原则。经济上,AI改变就业市场结构,创造新职业,如AI顾问,同时要求教育体系更新。未来,平衡技术进步与社会影响至关重要。
52 0
|
4天前
|
人工智能 程序员 开发者
AI 时代程序员还“香”吗?别错过这场 OG & 跨界技术人的坦白局!
大模型当道的今天,程序员的职业选择与未来发展正在经历哪些变化和机会?大厂在招聘技术岗时会重点关注哪些能力?AI 时代下程序员的职场发展需要哪些“新活儿”傍身?7 月 11 日晚 19:00,我们请来了你熟悉的“OG 程序员”和“跨界程序员”,一起来一场“坦白局”!