魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(上)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭中文开源模型社区:模型即服务-

 

作者:赵德丽达摩院基础视觉实验室负责人

 

一、 AI系统的多模态学习

 

image.png 

 

目前,AI发展呈现三个方向。第一,深耕产业化。比如自动驾驶、智慧医疗、智慧农业等等。第二,构建平台。比如Hugging、Face、ModelScope等等。第三,人工智能基础设施AI system。比如谷歌提出的Pathways概念,一个基础设施能解决千万个问题。

 

AI system必须可开发、可维护、可迭代、可扩展。因此,AI system的底层架构必须是统一的技术架构。

 

image.png 

 

接下来,讲一讲AI的多模态生成。主要基于多模态学习,即一种机器学习的范式转移。它的意义非常深远,图像标注从单一标签到语言描述的使用方式变化,改变了AI领域数据获取和使用的方式,直接带来了算法的新范式,也就是多模态学习。

 

如上图所示,传统的图像学习,只能对图片主体进行描述,比如“豹子”。多模态学习可以对图片用一句话进行描述。比如“一只褐色的豹子,站在草地上望着远方”。这句话包含了图像里主体的数量、动作、环境、属性等等,它的语义变得更加丰富。

 

目前,多模态学习分为两大方向。一个是多模态表征学习,提炼图像特征,进行图像描述。另一个是生成模型,系统通过一句话的描述,生成一个与语言描述相符的图片。

 

image.png 

 

达摩院的知识重组大模型训练,在训练方式上进行了创新。达摩院把数据以经验知识为结构,进行分类重组。然后,从先验知识的分组中采样,输入基础模型训练。达摩院的统一大模型是“数据+知识”双驱动的智能结构。

 

由于达摩院的训练模型直接从数据库里采样,采样图像直接输入模型并训练,然后进行模型部署。因此,知识重组训练方式相比传统的训练方式更加直观,更加简单。

 

image.png 

 

如果基于知识重组的概念,系统把它当成一个语义相似的类别,这个类别中包含了很多的动作或表情,比如惊讶。因此,系统会构造出很多的知识类别,相比传统方式更具有相关性。

 

在训练大模型时,系统以Knowledge Group为单位进行训练,它的收敛速度、优化结果都有显著提高。数据量越大,效果越明显。

 

相关文章
|
11天前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
2天前
|
人工智能 编解码
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
万相2.1是阿里通义万相最新推出的视频生成模型,支持1080P无限长视频生成,具备复杂动作展现、物理规律还原、艺术风格转换等功能。
112 26
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
|
14天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
218 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
21天前
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
185 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
1天前
|
人工智能 自然语言处理 API
用AI Agent做一个法律咨询助手,罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台
本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置,无需编写代码或训练模型,即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终,用户可以通过API调用集成此AI Agent到现有系统中,提供专业的法律咨询服务。整个过程简便高效,适合快速搭建专业领域的小助手。
48 21
|
20天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
18天前
|
人工智能 测试技术 开发者
通义发布最强开源多模态推理模型QVQ!
通义发布最强开源多模态推理模型QVQ!
311 18
|
1月前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
20天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
19天前
|
机器学习/深度学习 算法 网络协议
开源上新|通义语音处理技术ClearerVoice-Studio
开源上新|通义语音处理技术ClearerVoice-Studio

热门文章

最新文章