魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭中文开源模型社区:模型即服务-

 

作者:赵德丽达摩院基础视觉实验室负责人

 

一、 AI系统的多模态学习

 

image.png 

 

目前,AI发展呈现三个方向。第一,深耕产业化。比如自动驾驶、智慧医疗、智慧农业等等。第二,构建平台。比如Hugging、Face、ModelScope等等。第三,人工智能基础设施AI system。比如谷歌提出的Pathways概念,一个基础设施能解决千万个问题。

 

AI system必须可开发、可维护、可迭代、可扩展。因此,AI system的底层架构必须是统一的技术架构。

 

image.png 

 

接下来,讲一讲AI的多模态生成。主要基于多模态学习,即一种机器学习的范式转移。它的意义非常深远,图像标注从单一标签到语言描述的使用方式变化,改变了AI领域数据获取和使用的方式,直接带来了算法的新范式,也就是多模态学习。

 

如上图所示,传统的图像学习,只能对图片主体进行描述,比如“豹子”。多模态学习可以对图片用一句话进行描述。比如“一只褐色的豹子,站在草地上望着远方”。这句话包含了图像里主体的数量、动作、环境、属性等等,它的语义变得更加丰富。

 

目前,多模态学习分为两大方向。一个是多模态表征学习,提炼图像特征,进行图像描述。另一个是生成模型,系统通过一句话的描述,生成一个与语言描述相符的图片。

 

image.png 

 

达摩院的知识重组大模型训练,在训练方式上进行了创新。达摩院把数据以经验知识为结构,进行分类重组。然后,从先验知识的分组中采样,输入基础模型训练。达摩院的统一大模型是“数据+知识”双驱动的智能结构。

 

由于达摩院的训练模型直接从数据库里采样,采样图像直接输入模型并训练,然后进行模型部署。因此,知识重组训练方式相比传统的训练方式更加直观,更加简单。

 

image.png 

 

如果基于知识重组的概念,系统把它当成一个语义相似的类别,这个类别中包含了很多的动作或表情,比如惊讶。因此,系统会构造出很多的知识类别,相比传统方式更具有相关性。

 

在训练大模型时,系统以Knowledge Group为单位进行训练,它的收敛速度、优化结果都有显著提高。数据量越大,效果越明显。

 

相关文章
|
5月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
4月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
3月前
|
数据可视化 物联网 Swift
谷歌开源Gemma2!魔搭社区推理、微调最佳实践教程
Google面向全球研究人员和开发者发布并开源 Gemma 2 大语言模型!本次Gemma 2 系列为轻量级开放模型,提供9B和27B参数两种尺寸,采用全新的架构设计,性能表现优异。
|
5月前
|
数据可视化 物联网 Swift
澜舟科技开源孟子3-13B大模型,魔搭社区推理训练最佳实践!
4月1日,澜舟科技宣布开源Mengzi3-13B大模型,对学术研究完全开放,同时支持免费商用。
|
5月前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。
|
5月前
|
人工智能 知识图谱 Windows
Mistral 7B v0.2 基础模型开源,魔搭社区微调教程和评测来啦!
Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点
|
5月前
|
人工智能 数据可视化 物联网
Mistral AI发布首个开源MoE模型,魔搭社区推理微调最佳实践来啦!
继Mistral 7B 后,Mistral AI 近日又放出一记大招——发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0 许可证下可商用。
|
12月前
|
JSON 自然语言处理 安全
ChatGLM2-6B和ChatGLM-6B:开源双语对话模型,探索无限对话可能!
ChatGLM2-6B和ChatGLM-6B:开源双语对话模型,探索无限对话可能!
254 0
|
机器学习/深度学习 人工智能 达摩院
|
人工智能
魔搭中文开源模型社区:模型即服务-通用多模态AI构建(中)
魔搭中文开源模型社区:模型即服务-通用多模态AI构建
682 2
下一篇
无影云桌面