魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(上)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭中文开源模型社区:模型即服务-

 

作者:赵德丽达摩院基础视觉实验室负责人

 

一、 AI系统的多模态学习

 

image.png 

 

目前,AI发展呈现三个方向。第一,深耕产业化。比如自动驾驶、智慧医疗、智慧农业等等。第二,构建平台。比如Hugging、Face、ModelScope等等。第三,人工智能基础设施AI system。比如谷歌提出的Pathways概念,一个基础设施能解决千万个问题。

 

AI system必须可开发、可维护、可迭代、可扩展。因此,AI system的底层架构必须是统一的技术架构。

 

image.png 

 

接下来,讲一讲AI的多模态生成。主要基于多模态学习,即一种机器学习的范式转移。它的意义非常深远,图像标注从单一标签到语言描述的使用方式变化,改变了AI领域数据获取和使用的方式,直接带来了算法的新范式,也就是多模态学习。

 

如上图所示,传统的图像学习,只能对图片主体进行描述,比如“豹子”。多模态学习可以对图片用一句话进行描述。比如“一只褐色的豹子,站在草地上望着远方”。这句话包含了图像里主体的数量、动作、环境、属性等等,它的语义变得更加丰富。

 

目前,多模态学习分为两大方向。一个是多模态表征学习,提炼图像特征,进行图像描述。另一个是生成模型,系统通过一句话的描述,生成一个与语言描述相符的图片。

 

image.png 

 

达摩院的知识重组大模型训练,在训练方式上进行了创新。达摩院把数据以经验知识为结构,进行分类重组。然后,从先验知识的分组中采样,输入基础模型训练。达摩院的统一大模型是“数据+知识”双驱动的智能结构。

 

由于达摩院的训练模型直接从数据库里采样,采样图像直接输入模型并训练,然后进行模型部署。因此,知识重组训练方式相比传统的训练方式更加直观,更加简单。

 

image.png 

 

如果基于知识重组的概念,系统把它当成一个语义相似的类别,这个类别中包含了很多的动作或表情,比如惊讶。因此,系统会构造出很多的知识类别,相比传统方式更具有相关性。

 

在训练大模型时,系统以Knowledge Group为单位进行训练,它的收敛速度、优化结果都有显著提高。数据量越大,效果越明显。

 

相关文章
|
2天前
|
缓存 算法 Java
通义灵码技术解析:大模型如何重构开发者工作流
通义灵码是一款基于通义千问代码大模型的智能编程工具,专为中文开发者设计。它不仅提供代码补全功能,还覆盖需求分析、架构设计、代码生成与缺陷检测等全链路开发场景。文章从核心架构(多模态代码模型设计)、关键算法突破(语义驱动生成与双引擎缺陷检测)及工程实践(低延迟优化与企业级部署)三个维度剖析其创新逻辑,并通过性能基准测试展示其优越性。未来,通义灵码将持续探索AI-Native开发范式,重新定义开发者生产力。
36 7
|
3天前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
101 7
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
6天前
|
传感器 人工智能 安全
蔚来汽车智能座舱接入通义大模型,并使用通义灵码全面提效
为加速AI应用在企业市场落地,4月9日,阿里云在北京召开AI势能大会。阿里云智能集团资深副总裁、公共云事业部总裁刘伟光发表主题演讲,大模型的社会价值正在企业市场释放,阿里云将坚定投入,打造全栈领先的技术,持续开源开放,为AI应用提速。
|
19天前
|
人工智能 程序员 测试技术
通义灵码与魔搭 Notebook 深度集成:在线编码开箱即用,开发效率倍增
通义灵码 2.0 AI 程序员 2025 年 1 月正式上线,目前已经服务百万开发者,成为国内开发者最受欢迎的智能编码助手。
|
20天前
|
人工智能 IDE 测试技术
通义灵码与魔搭Notebook深度集成:在线编码开箱即用,开发效率倍增
通义灵码2.0 AI程序员于2025年1月上线,目前已支持超过百万开发者。该工具的智能编程能力现已与阿里云AI模型开发平台魔搭ModelScope实现技术集成
75 0
|
22天前
|
SQL 人工智能 搜索推荐
通义灵码 Rules 来了:个性化代码生成,对抗模型幻觉
通义灵码又上新外挂啦,Project Rules来了。当模型生成代码不精准,试下通义灵码 Rules,对抗模型幻觉,硬控 AI 根据你的代码风格和偏好生成代码和回复。
|
24天前
|
人工智能 数据可视化 数据挖掘
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。
146 15
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
|
26天前
|
SQL 人工智能 搜索推荐
通义灵码 Rules 来了:个性化代码生成,对抗模型幻觉
通义灵码又上新外挂啦,Project Rules来了。当模型生成代码不精准,试下通义灵码 Rules,对抗模型幻觉,硬控 AI 根据你的代码风格和偏好生成代码和回复。
679 7
|
1月前
|
人工智能 自然语言处理 IDE
通义灵码 Visual Studio 终于支持模型切换
如需使用灵码模型选择,需要开发者将灵码 IDE 插件更新到最新版,前往下载安装包安装
147 0
通义灵码 Visual Studio 终于支持模型切换
|
1月前
|
人工智能 开发工具 C++
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
22202 17

热门文章

最新文章