魔搭中文开源模型社区:模型即服务-通用多模态AI构建(上)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务

 

作者:周畅阿里巴巴达摩院智能计算实验室

 

一、 OFA简介

 

image.png

 

2021年,达摩院智能计算实验室开发了M6动态模型。一方面,研究万亿级的大模型低碳训练技术;另一方面,研究大模型服务化技术,并在各行各业应用了文生图原子能力,以及图到文原子能力。

 

image.png

 

2022年,达摩院更关注多模态模型如何能够更通用,所以今年主打的模型系列叫OFA,希望它能像人一样,只使用一个模型就能处理尽可能多的日常事务。

 

image.png

 

目前,通用模型有两条技术路线。第一种是表征模型,它只做一件事情,把不同模态的数据,从原始Format映射到深度学习模型的数据分布上。

 

第二种技术路线是GPT-3,即通用任务模型。它是历史上第一个能够把任务描述直接建模在模型里,并取得真实效果的模型。

 

image.png

 

2022年2月,达摩院推出了VL prototype,并开源了源代码,在半年多的时间里,收获了不少国内外团队的关注和使用。

 

OFA对于所有任务会共享一套结构,它和人一样通过听任务指令,就能完成日常基本的跨模态数据操作。OFA试图将模型设计和任务设计解耦开来,让使用者更关注任务表示,而不是AI模型设计。

 

image.png

 

如上图所示,给模型一张图,然后用一段文本叙述图片的内容。如果用户在OFA的基础上进行识别,只需要一行代码即可。

 

image.png

 

由于OFA是基于instruction做多任务预训练,模型类似T0能够根据对任务指令的理解,做一些没有学过的任务。如上图所示,模型只需要根据输入的问题以及给定的坐标进行离散化表示,就能做出相应的正确回答。

 

image.png

 

目前,OFA-speech在中文AISHELL-1上取得大幅优势,dev/test集字错误率仅为1.6%/1.9%。

 

image.png

 

如上图所示,OFA可以通过文本的形式,解决数独问题,准确率高达100%。

 

image.png

 

除此之外,OFA还可以进行视频游戏。如上图所示,用户可以输入一段Instruction,根据视频逐帧采取相应的行动。

 

image.png

 

如上图所示,OFA还可以驱动一个3D数字人,且仍然使用相同的模型。当用户输入一段话后,它可以根据指令做一个3D motion。最后,进行渲染。

 

image.png

 

目前,OFA在ModelScope社区开源的模型主要有OFA图像描述、OFA视觉问答、OFA文生图模型等等。

 

image.png

 

OFA是达摩院M6团队研发的通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态和任务。如图片生成、视觉定位、图片描述、图片分类、文本生成等。

 

该工作已经发表在ICML 2022上,得到了Google Brain,DeepMind,Microsoft等一线多模态大模型玩家的引用和关注。目前,已经有60多个学术界论文引用了OFA。

 

OFA践行了One For All的理念,同时也在多模态和单模态任务上都得到了较好的结果,如Image Captioning(CIDEr 154.9)、VQA(acc 82.0)、ImageNet-1ktop-1 acc 85.6、Gigaword(Rouge-1 39.81)等等。

 

image.png

 

目前,ModelScope上面所有已经上传的模型和任务,都可以在下面导航表格看到,点击链接可以跳转到相应Model Card。

 

image.png

 

与此同时,OFA还有在线体验功能。用户可以上传图片,进行体验。

 

image.png

 

如上图所示,是基于ModelScope上的OFA通用的预训练模型底座,通过二次开发得到图像文字识别微调模型,并使用基础模型进行推理。用户可以通过构造trainer,并基于图像文字识别数据集进行训练。

 


相关文章
|
1月前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
642 78
|
1月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
162 17
|
1月前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
|
24天前
|
存储 人工智能 自然语言处理
构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
本文探讨了多智能体系统中记忆机制的设计与实现,提出构建精细化记忆体系以模拟人类认知过程。文章分析了上下文窗口限制的技术挑战,并介绍了四种记忆类型:即时工作记忆、情节记忆、程序性记忆和语义知识系统。通过基于文件的工作上下文记忆、模型上下文协议的数据库集成以及RAG系统等技术方案,满足不同记忆需求。此外,高级技术如动态示例选择、记忆蒸馏和冲突解决机制进一步提升系统智能化水平。总结指出,这些技术推动智能体向更接近人类认知的复杂记忆处理机制发展,为人工智能开辟新路径。
107 5
构建智能AI记忆系统:多智能体系统记忆机制的设计与技术实现
|
1月前
|
人工智能 自然语言处理 语音技术
|
11天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
154 9
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问推理模型QwQ-32B开源,更小尺寸、更强性能
阿里云发布并开源全新推理模型通义千问QwQ-32B,通过大规模强化学习,在数学、代码及通用能力上实现质的飞跃,性能比肩DeepSeek-R1。该模型大幅降低部署成本,支持消费级显卡本地部署,并集成智能体Agent相关能力。阿里云采用Apache2.0协议全球开源,用户可通过通义APP免费体验。此外,通义团队已开源200多款模型,覆盖全模态和全尺寸。
|
11天前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
93 4

热门文章

最新文章