开发者社区> ModelScope模型即服务> 多模态
3148
分享

多模态

+关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

2
今日
300
内容
0
活动
239
关注

QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。

23 13

BizGen:长文秒变信息图!AI排版黑科技碾压PPT,十语种一键出图

清华大学与微软联合推出的BizGen AI工具,能自动将长篇文章转化为专业信息图和幻灯片,支持10种语言和多种风格,排版准确率远超同类产品。

20 8

阿里开源多模态全能王 Qwen2.5-Omni:创新Thinker-Talker架构,全面超越Gemini-1.5-Pro等竞品

阿里开源Qwen2.5-Omni多模态大模型,支持文本、图像、音频和视频输入,具备实时语音合成与流式响应能力,在OmniBench等基准测试中全面超越Gemini-1.5-Pro等竞品,提供免费商用授权。

109 5

Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则

Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。

25 7

Mureka O1:全球首款「思维链」音乐大模型!昆仑万维让AI作曲自我进化

昆仑万维推出的全球首款音乐推理大模型Mureka O1,引入思维链技术实现多轮自我优化,支持10种语言AI音乐创作,具备音色克隆、风格控制等特色功能,为开发者提供API和微调服务。

79 18

Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。

49 11

Qwen2.5-VL-32B:阿里开源多模态核弹!32B模型吊打自家72B,数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型,在数学推理、视觉问答等任务中超越前代72B版本,支持图像细粒度理解和复杂逻辑分析,已在HuggingFace开源。

98 0

StarVector:图像秒变矢量代码!开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型,能够将图像和文本转换为可编辑的SVG矢量图形,支持1B和8B两种规模,在SVG生成任务中表现出色。

56 0

Second Me:硅基生命或成现实?如何用AI克隆自己,打造你的AI数字身份!

Second Me 是一个开源AI身份系统,允许用户创建完全私有的个性化AI代理,代表用户的真实自我,支持本地训练和部署,保护用户隐私和数据安全。

66 8

SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练

SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。

58 5

Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。

162 3

GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作

GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型,基于多模态输入和双系统架构,能够执行复杂操作任务,适用于物流、制造、零售等多个领域。

57 1

UniAct:清华团队突破!跨平台机器人通用模型,仅需50条数据就能快速适配新环境

UniAct 是由清华、商汤、北大、上海AI Lab联合推出的具身基础模型框架,旨在解决不同机器人之间的行为异构性问题,通过学习通用行为实现跨平台控制。

50 1

SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。

148 1

Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒

Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。

89 7

OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」

OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。

51 1

Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。

142 5

昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家

Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。

63 4

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。

124 3

MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。

111 32

AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴

AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。

115 36

MM-Eureka:多模态推理新纪元!54K训练量吊打百万级模型,K12数学能力暴增8.2%

MM-Eureka 是由上海人工智能实验室、上海创智学院、上海交通大学和香港大学联合开发的多模态推理模型,通过基于规则的强化学习,显著提升了多模态推理能力,尤其在数据效率和推理准确性方面表现突出。

95 37

Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。

152 10

Open-Sora 2.0:零门槛吊打闭源!20万训练成本开源视频模型生成720p大片

Open-Sora 2.0 是潞晨科技推出的开源AI视频生成模型,仅需20万美元训练成本,生成720p高清视频,性能媲美主流闭源模型,支持文本到视频、图像到视频等多种生成方式。

101 7

一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言

Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。

264 8

MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音

MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。

101 7

GaussianAnything:多模态3D生成黑科技!南洋理工开源框架秒建可编辑高精度模型

GaussianAnything 是由南洋理工大学 S-Lab 和上海 AI Lab 联合推出的 3D 生成框架,支持多模态输入,能够生成高质量、可编辑的 3D 模型,广泛应用于游戏、影视、VR/AR 等领域。

45 1

PP-DocBee:百度飞桨多模态文档解析神器,中文场景SOTA准确率一键提取表格图表

PP-DocBee 是百度飞桨推出的专注于文档图像理解的多模态大模型,基于 ViT+MLP+LLM 架构,具备强大的中文文档解析能力,适用于文档问答、复杂文档解析等场景,支持多种部署方式。

102 1

MV-MATH:中科院开源多模态数学推理基准,多视觉场景评估新标杆

MV-MATH 是中科院自动化所推出的多模态数学推理基准数据集,旨在评估多模态大语言模型在多视觉场景中的数学推理能力。该数据集包含2009个高质量的数学问题,涵盖11个数学领域和3个难度级别,适用于智能辅导系统和多模态学习研究。

34 0

阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%

R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。

151 10

Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑

Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。

1088 7

AppAgentX:告别重复点击!自我进化式GUI代理自动生成高级操作,效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架,通过记忆和进化机制提升智能手机交互的效率和智能性,支持复杂任务和跨应用操作,显著优于现有方法。

78 0

Kiss3DGen:基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象,支持文本到3D、图像到3D等多种生成任务。

70 5

TheoremExplainAgent – AI教学双智能体,数理化定理自动转动画

TheoremExplainAgent 是一个由滑铁卢大学和 Votee AI 等机构开发的多模态代理系统,能够将数学和科学定理自动转化为长篇动画视频,帮助用户更好地理解复杂概念。该系统支持多学科、多模态解释,并通过自动错误诊断和系统化评估提升生成内容的质量。

127 9

PodAgent:港中文、微软、小红书联合推出的播客生成框架

PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架,基于多智能体协作系统,自动生成高质量对话内容,支持声音角色匹配和语音合成,适用于媒体、教育、企业推广等多个场景。

83 5

SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型

SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。

61 7

Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行

Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。

260 11

OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。

67 10

NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。

276 15

Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表

Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。

233 2

CogView4:智谱开源中文文生图新标杆,中文海报+任意分辨率一键生成

CogView4 是智谱推出的开源文生图模型,支持中英双语输入和任意分辨率图像生成,特别优化了中文文字生成能力,适合广告、创意设计等场景。

87 1

ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档

ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。

95 8

Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作

Story-flicks 是一款基于AI大模型的视频生成工具,支持一键生成包含图像、文本、音频和字幕的高清故事短视频,适用于教育、内容创作、广告营销等多个领域。

502 7

SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型,能够通过文本生成高质量歌曲,支持混合模式和双轨模式,显著提升生成歌曲的自然度和人声清晰度。

129 3

AIMv2:苹果开源多模态视觉模型,自回归预训练革新图像理解

AIMv2 是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能,适用于多种视觉和多模态任务。

61 5

Trae 接入 Claude 3.7:AI 编程工具界的“卷王”,完全免费使用!

Trae 是一款完全免费的AI编程工具,现已接入 Claude 3.7 模型,提供代码生成、调试等强大功能,支持多模态输入和上下文理解,用户可享受24小时高速服务,无需担心付费限制。Trae 支持多平台,安装简便,适合开发者快速上手。

1162 1

R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V

R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。

110 0

video-subtitle-master:开源字幕生成神器!批量生成+AI翻译全自动,5分钟解放双手

video-subtitle-master 是一款开源AI字幕生成工具,支持批量为视频或音频生成字幕,并可将字幕翻译成多种语言。它集成了多种翻译服务和语音识别技术,适合视频创作者、教育领域和个人娱乐使用。

109 0

Flame:开源AI设计图转代码模型!生成React组件,精准还原UI+动态交互效果

Flame 是一款开源的多模态 AI 模型,能够将 UI 设计图转换为高质量的现代前端代码,支持 React 等主流框架,具备动态交互、组件化开发等功能,显著提升前端开发效率。

371 1

阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。

786 2
我要发布
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等