多模态-推荐-第2页-阿里云开发者社区-阿里云

开发者社区> ModelScope模型即服务> 多模态

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

今日

311

内容

活动

253

关注

来自： ModelScope模型即服务

文章

视频

问答

精华

蚝油菜花

12月前

人工智能数据可视化数据挖掘

博文

QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型，不仅能解析图像视频内容，还能进行深度推理和创意生成，在数学解题、数据分析、穿搭建议等场景展现强大能力。

1159 15 17

蚝油菜花

12月前

人工智能机器人物联网

博文

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型，基于百万真实数据预训练，赋予机器人强大的3D空间理解能力，支持跨平台泛化控制。

401 7 7

蚝油菜花

12月前

数据采集人工智能文字识别

博文

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集，旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，结合开放式问答对，支持知识问答、推理任务和创造性任务。

599 10 10

蚝油菜花

12月前

机器学习/深度学习人工智能编解码

博文

AIMv2：苹果开源多模态视觉模型，自回归预训练革新图像理解

AIMv2 是苹果公司开源的多模态自回归预训练视觉模型，通过图像和文本的深度融合提升视觉模型的性能，适用于多种视觉和多模态任务。

581 5 5

蚝油菜花

12月前

机器学习/深度学习人工智能自然语言处理

博文

Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列，具备物理常识理解和具身推理能力，支持视频输入和长链思考，可应用于机器人、自动驾驶等场景。

583 8 8

蚝油菜花

12月前

人工智能自然语言处理语音技术

博文

PodAgent：港中文、微软、小红书联合推出的播客生成框架

PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架，基于多智能体协作系统，自动生成高质量对话内容，支持声音角色匹配和语音合成，适用于媒体、教育、企业推广等多个场景。

642 5 6

蚝油菜花

11月前

人工智能编解码

博文

导演失业预警！Seaweed-7B：字节7B参数模型让剧本自动变电影！20秒长镜头丝滑生成

Seaweed-7B是字节跳动推出的70亿参数视频生成模型，支持从文本、图像或音频生成高质量视频内容，具备长镜头生成、实时渲染等先进特性，通过优化架构显著降低计算成本。

505 10 11

蚝油菜花

11月前

人工智能并行计算测试技术

博文

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。

1006 2 2

蚝油菜花

11月前

人工智能 JSON 网络协议

博文

音乐人狂喜！AbletonMCP：让AI帮你写歌，一句话生成专业编曲，Demo级作品秒出

AbletonMCP 是一个开源项目，通过模型上下文协议（MCP）将 Ableton Live 与 Claude AI 连接，实现 AI 辅助音乐制作，支持创建、修改 MIDI 和音频轨道等操作。

769 10 10

蚝油菜花

12月前

机器学习/深度学习人工智能数据库

博文

Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型，支持10种语言歌词生成和纯音乐创作，通过自研ICL技术实现声场优化，覆盖爵士/电子/流行等多元风格，为音乐爱好者和专业创作者提供高效工具。

620 11 11

蚝油菜花

12月前

人工智能监控搜索推荐

博文

MedRAG：医学AI革命！知识图谱+四层诊断，临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型，结合知识图谱与大语言模型，提升诊断准确率11.32%，支持多模态输入与智能提问，适用于急诊、慢性病管理等多种场景。

765 32 32

蚝油菜花

12月前

人工智能

博文

MV-MATH：中科院开源多模态数学推理基准，多视觉场景评估新标杆

MV-MATH 是中科院自动化所推出的多模态数学推理基准数据集，旨在评估多模态大语言模型在多视觉场景中的数学推理能力。该数据集包含2009个高质量的数学问题，涵盖11个数学领域和3个难度级别，适用于智能辅导系统和多模态学习研究。

300 0 0

游客ak35f7cs4gw4c

4月前

Apache 自然语言处理

问答

通过ollama 编写modelfile的形式创建翻译模型，输出全是思考，老是超限，翻译不出来。

203 0 0

蚝油菜花

11月前

机器学习/深度学习人工智能编解码

博文

快速生成商业级高清图！SimpleAR：复旦联合字节推出图像生成黑科技，5亿参数秒出高清大图

SimpleAR是复旦大学与字节Seed团队联合研发的自回归图像生成模型，仅用5亿参数即可生成1024×1024分辨率的高质量图像，在GenEval等基准测试中表现优异。

453 4 4

蚝油菜花

11月前

人工智能调度 UED

博文

这个AI能把PSD变视频！人物/场景/道具任意组合！SkyReels-A2：昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架，通过扩散模型和图像-文本联合嵌入技术，实现多元素精准组合与高质量视频输出。

525 25 25

蚝油菜花

12月前

人工智能搜索推荐开发者

博文

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

455 5 5

游客4olayymf2ta3i

4月前

API

问答

minimax接入vscode，为什么今天会不间断的出现错误

133 0 0

31349819

7月前

异构计算

问答

部署服务（SwingDeploy）免费部署的模型调用失败

175 0 0

游客5wtrclld4ysfm

11月前

问答

HDL文件分析并理解其中的拓扑结构

136 0 0

蚝油菜花

12月前

机器学习/深度学习人工智能测试技术

博文

昆仑万维开源 Skywork R1V：开源多模态推理核弹！视觉链式分析超越人类专家

Skywork R1V 是昆仑万维开源的多模态思维链推理模型，具备强大的视觉链式推理能力，能够在多个权威基准测试中取得领先成绩，推动多模态推理模型的发展。

324 4 4

游客4i6pahziwllxs

6月前

问答

普通轻薄本能跑哪些多模态大模型

374 1 0

游客2ry5g6ck4knew

7月前

问答

这个怎么搭建呢

228 1 0

游客5wkefycldfcuc

8月前

AI芯片

问答

请问MNN支持在高通或者MTK平台上部署大模型吗？

213 0 0

蚝油菜花

11月前

机器学习/深度学习人工智能搜索推荐

博文

快速切换多种画风！FlexIP：腾讯开源双适配器图像生成框架，精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架，其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡，在CLIP-I指标上取得0.873的高分验证了技术突破。

280 9 9

你好！

登录掌握更多精彩内容

账号登录

我的内容

我的收藏

模型库

数据集

创空间

文档

更多版块

计算机视觉自然语言处理语音科学计算

活跃用户

我要发布

文章问答