魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(上)

简介: 魔搭中文开源模型社区:模型即服务-

 

作者:赵德丽达摩院基础视觉实验室负责人

 

一、 AI系统的多模态学习

 

image.png 

 

目前,AI发展呈现三个方向。第一,深耕产业化。比如自动驾驶、智慧医疗、智慧农业等等。第二,构建平台。比如Hugging、Face、ModelScope等等。第三,人工智能基础设施AI system。比如谷歌提出的Pathways概念,一个基础设施能解决千万个问题。

 

AI system必须可开发、可维护、可迭代、可扩展。因此,AI system的底层架构必须是统一的技术架构。

 

image.png 

 

接下来,讲一讲AI的多模态生成。主要基于多模态学习,即一种机器学习的范式转移。它的意义非常深远,图像标注从单一标签到语言描述的使用方式变化,改变了AI领域数据获取和使用的方式,直接带来了算法的新范式,也就是多模态学习。

 

如上图所示,传统的图像学习,只能对图片主体进行描述,比如“豹子”。多模态学习可以对图片用一句话进行描述。比如“一只褐色的豹子,站在草地上望着远方”。这句话包含了图像里主体的数量、动作、环境、属性等等,它的语义变得更加丰富。

 

目前,多模态学习分为两大方向。一个是多模态表征学习,提炼图像特征,进行图像描述。另一个是生成模型,系统通过一句话的描述,生成一个与语言描述相符的图片。

 

image.png 

 

达摩院的知识重组大模型训练,在训练方式上进行了创新。达摩院把数据以经验知识为结构,进行分类重组。然后,从先验知识的分组中采样,输入基础模型训练。达摩院的统一大模型是“数据+知识”双驱动的智能结构。

 

由于达摩院的训练模型直接从数据库里采样,采样图像直接输入模型并训练,然后进行模型部署。因此,知识重组训练方式相比传统的训练方式更加直观,更加简单。

 

image.png 

 

如果基于知识重组的概念,系统把它当成一个语义相似的类别,这个类别中包含了很多的动作或表情,比如惊讶。因此,系统会构造出很多的知识类别,相比传统方式更具有相关性。

 

在训练大模型时,系统以Knowledge Group为单位进行训练,它的收敛速度、优化结果都有显著提高。数据量越大,效果越明显。

 

相关文章
|
4月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
4月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
432 121
|
4月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
291 113
|
4月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
345 114
|
4月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
404 120
|
4月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
324 117
|
5月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1116 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
4月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
1080 2