开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
349
内容
0
活动
244
关注
|
23小时前
|
人工智能 编解码 算法
|

AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成

MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。

51 1
|
23小时前
|
人工智能 API 调度
|

微软开源Windows桌面智能体操作系统!UFO²:一句话调度多应用,自动协同工作

UFO²是微软推出的Windows桌面多智能体操作系统,通过中央HostAgent协调多个AppAgent实现跨应用任务自动化,结合GUI交互和原生API调用提升执行效率,支持虚拟桌面隔离运行。

22 2
|
23小时前
|
人工智能 算法 数据可视化
|

机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱

上海AI Lab推出的Infinite Mobility采用程序化生成技术,可高效生成22类高质量可交互物体,单个生成仅需1秒且成本低至0.01元,已应用于机器人仿真训练等领域。

24 2
|
3天前
|
人工智能 Linux iOS开发
|

音乐人必看!OpenUtau:开源AI歌声合成神器,快速打造专业级虚拟歌手,中文日文无缝切换

OpenUtau是一款开源的歌声合成工具,兼容UTAU音源库和重采样器,支持多语言界面及预渲染功能,让音乐创作更加高效便捷。

110 15
|
3天前
|
机器学习/深度学习 人工智能 编解码
|

这个AI能拍无限长电影!SkyReels-V2:昆仑万维开源无限时长电影生成模型!

SkyReels-V2是昆仑万维推出的突破性视频生成模型,基于扩散强迫框架和多模态大语言模型技术,支持生成理论上无限时长的连贯视频内容,在影视制作、广告创意等领域展现强大潜力。

142 7
|
3天前
|
人工智能 缓存 API
|

只管提需求,AI来帮你修图!ImagePulse:魔搭开源图像处理神器!原子级数据集让AI秒懂修图指令

ImagePulse是魔搭社区推出的开源项目,通过构建原子能力数据集支持下一代图像理解与生成模型,包含修改、缩放、风格迁移等专项数据集。

67 4
|
3天前
|
机器学习/深度学习 人工智能 知识图谱
|

视觉分词器突破天花板!GigaTok:港大字节联手打造3B参数视觉分词器,突破图像生成瓶颈

GigaTok是香港大学与字节跳动联合研发的3B参数视觉分词器,通过语义正则化技术和创新架构设计,解决了图像重建与生成质量间的矛盾,显著提升自回归模型的表示学习能力。

26 4
|
3天前
|
机器学习/深度学习 人工智能 编解码
|

快速生成商业级高清图!SimpleAR:复旦联合字节推出图像生成黑科技,5亿参数秒出高清大图

SimpleAR是复旦大学与字节Seed团队联合研发的自回归图像生成模型,仅用5亿参数即可生成1024×1024分辨率的高质量图像,在GenEval等基准测试中表现优异。

34 4
|
3天前
|
数据采集 人工智能 自动驾驶
|

从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定

Aether是上海AI Lab开源的生成式世界模型,通过三维时空建模与生成式建模的深度融合,实现了4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。

43 1
|
4天前
|
人工智能 算法 测试技术
|

微软黑科技让《我的世界》自主探索!MineWorld:微软开源实时交互式世界模型,实时生成游戏画面!

MineWorld是微软研究院基于《我的世界》开发的实时交互式世界模型,采用视觉-动作自回归Transformer架构,通过创新的并行解码算法实现每秒4-7帧的生成速度,在视频质量、可控性和推理速度上均超越现有模型。

93 17
|
4天前
|
人工智能 并行计算 Linux
|

斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画

斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。

168 19
|
5天前
|
机器学习/深度学习 人工智能 编解码
|

AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。

136 7
|
5天前
|
人工智能 自然语言处理 物联网
|

用AI体验瞬息全宇宙!InstantCharacter:腾讯混元开源角色定制图像生成神器,一键打造你的专属角色

InstantCharacter是腾讯混元团队基于扩散Transformer架构开发的开源图像生成工具,通过可扩展适配器和大规模角色数据集实现高保真、角色一致性的图像生成,支持单图输入和文本控制。

84 3
|
6天前
|
机器学习/深度学习 人工智能 测试技术
|

让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%

字节跳动推出的豆包1.5·UI-TARS是首个整合视觉理解、逻辑推理与界面操作的GUI Agent模型,无需预定义规则即可完成复杂图形界面交互任务,已在火山方舟平台提供服务。

125 2
|
6天前
|
人工智能 算法 安全
|

数学编程视觉全能王!OpenAI 推出 o4-mini:视觉推理能力碾压前代,屠榜AIME

OpenAI最新推出的o4-mini小型推理模型在数学、编程和视觉任务中表现卓越,支持多模态推理和工具调用,性能超越前代的同时保持高性价比。

46 3
|
6天前
|
人工智能 自然语言处理 图形学
|

多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容

Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。

42 0
|
6天前
|
人工智能 算法 API
|

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。

129 6
|
7天前
|
人工智能 自然语言处理 搜索推荐
|

AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆

上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。

77 14
|
7天前
|
人工智能 自然语言处理 API
|

这个开源AI平台把文生图/音/字全包了!Pollinations.AI:提供完全免费的AI内容生成

Pollinations.AI 是一个开源的AI内容生成平台,提供免费的文本、图像、音频生成及转换API,无需注册即可使用,支持多种模型和自定义参数,适合开发者和创作者快速集成。

99 15
|
7天前
|
人工智能 编解码
|

导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成

Seaweed-7B是字节跳动推出的70亿参数视频生成模型,支持从文本、图像或音频生成高质量视频内容,具备长镜头生成、实时渲染等先进特性,通过优化架构显著降低计算成本。

95 10
|
7天前
|
机器学习/深度学习 人工智能 PyTorch
|

模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。

153 27
|
7天前
|
机器学习/深度学习 人工智能 编解码
|

告别潜在空间的黑箱操作,直接在原始像素空间建模!PixelFlow:港大团队开源像素级文生图模型

香港大学与Adobe联合研发的PixelFlow模型,通过流匹配和多尺度生成技术实现像素级图像生成,在256×256分辨率任务中取得1.98的FID分数,支持端到端训练并突破传统模型对预训练VAE的依赖。

86 36
|
7天前
|
人工智能 中间件 API
|

别让创意卡在工具链!MiniMax MCP Server:MiniMax 开源 MCP 服务打通多模态生成能力,视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件,支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力,兼容主流客户端实现跨平台调用,采用检索增强生成技术保障内容准确性。

111 3
|
7天前
|
人工智能 前端开发 语音技术
|

开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

150 27
|
10天前
|
机器学习/深度学习 人工智能 搜索推荐
|

快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。

62 9
|
10天前
|
机器学习/深度学习 人工智能 编解码
|

胶佬狂喜!一键分解和修改建模!HoloPart:港大开源神器能将3D物体分解为完整、可编辑的语义部件

香港大学与VAST团队联合推出开源3D部件生成模型HoloPart,通过两阶段扩散模型实现被遮挡部件的完整重构,支持几何超分辨率与多场景应用,在ABO等数据集上展现显著技术优势。

119 7
|
10天前
|
人工智能 编解码 物联网
|

设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐

UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。

91 4
|
13天前
|
传感器 人工智能 算法
|

傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力

傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块,具备23个自由度和3.5米/秒运动能力,提供完整开源套件助力开发者验证算法。

133 3
|
13天前
|
机器学习/深度学习 人工智能 编解码
|

一键生成魔童哪吒数字人!FantasyTalking:阿里北邮联手打造静态肖像生成可控数字人框架

该框架基于双阶段视听对齐策略与视频扩散变换器模型,通过面部专注注意力机制实现身份保持,支持表情与动作强度的显式调控,生成高保真多姿态的虚拟形象动态视频。

145 3
|
13天前
|
存储 人工智能 JSON
|

传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现,其基于多模态融合架构实现90%以上识别准确率,支持数学公式与图表的结构化输出,为教育资料数字化提供高效解决方案。

147 5
|
13天前
|
机器学习/深度学习 人工智能 编解码
|

月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构,总参数量16B推理时仅激活2.8B,支持128K上下文窗口与高分辨率视觉输入,通过长链推理微调和强化学习实现复杂任务处理能力。

119 5
|
13天前
|
机器学习/深度学习 人工智能 编解码
|

让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架

EasyControl 是基于扩散变换器架构的高效灵活控制框架,通过轻量级条件注入模块实现多模态预训练支持,具备任意分辨率生成能力和显著优化的推理效率。

119 1
|
13天前
|
人工智能 运维 API
|

无需配置开箱即用!MoLing:基于MCP开发的自动化办公服务,一键搞定文件与网页操作

MoLing是一款基于Go语言开发的跨平台办公自动化工具,通过操作系统API和浏览器自动化框架实现文件操作、命令执行及网页控制,无需额外依赖即可运行。

84 1
|
13天前
|
人工智能 开发者
|

还在手写SVG?OmniSVG:复旦团队开源多模态矢量生成神器,文本图像秒变可编辑SVG!

复旦大学与StepFun联合推出的OmniSVG是全球首个端到端多模态SVG生成模型,通过创新的标记化方法实现高效矢量图形生成,支持文本、图像等多种输入方式。

78 0
|
14天前
|
机器学习/深度学习 人工智能 计算机视觉
|

AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成

美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。

91 4
|
14天前
|
人工智能 并行计算 测试技术
|

从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。

169 2
|
14天前
|
机器学习/深度学习 人工智能 算法
|

阶跃星辰推出新一代多模态推理模型 Step-R1-V-Mini:视觉+数学+代码全能王

Step-R1-V-Mini是阶跃星辰推出的多模态推理模型,采用PPO强化学习策略,在视觉推理、数学求解和代码生成等任务中表现优异,支持图文输入与文字输出。

58 0
|
16天前
|
人工智能 调度 UED
|

这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。

96 25
|
16天前
|
人工智能 算法 安全
|

OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互

Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。

132 1
|
16天前
|
人工智能 计算机视觉 开发者
|

Meta开源多模态AI新王炸!Llama 4:MoE架构仅用17B参数碾压Gemma 3,支持1000万token上下文

Meta最新开源的Llama 4系列多模态AI模型,采用混合专家架构,支持200种语言处理,最高达2万亿参数规模,在语言理解、图像分析和代码生成等任务中展现突破性性能。

84 0
|
16天前
|
机器学习/深度学习 人工智能 编解码
|

重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。

909 2
|
16天前
|
机器学习/深度学习 人工智能
|

OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。

55 1
|
16天前
|
人工智能 自然语言处理
|

打破次元壁!AnimeGamer:腾讯开源黑科技让动漫角色听你指挥,一句话生成专属冒险动画

AnimeGamer是基于多模态大语言模型的动态游戏系统,支持玩家通过自然语言指令操控动漫角色,实时生成具有上下文一致性的动画镜头和角色状态更新。

80 1
|
19天前
|
人工智能 JSON 网络协议
|

音乐人狂喜!AbletonMCP:让AI帮你写歌,一句话生成专业编曲,Demo级作品秒出

AbletonMCP 是一个开源项目,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作,支持创建、修改 MIDI 和音频轨道等操作。

162 10
|
20天前
|
机器学习/深度学习 人工智能 JSON
|

OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增

OThink-MR1是OPPO与港科大联合研发的多模态优化框架,通过动态KL散度策略和奖励模型显著提升模型在视觉计数等复杂任务中的泛化能力。

80 20
|
23天前
|
机器学习/深度学习 人工智能 搜索推荐
|

AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式

AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。

169 16
|
23天前
|
人工智能 机器人 开发工具
|

Amazon Nova Act:网页操作全自动!亚马逊黑科技把浏览器变AI机器人,请假/订餐/写邮件一键搞定

Amazon Nova Act是亚马逊AGI实验室推出的通用AI代理系统,通过原子化分解网页操作任务并配合Playwright实现高可靠性浏览器自动化,其配套SDK支持开发者快速构建智能体应用原型。

92 13
|
24天前
|
人工智能 编解码 机器人
|

RoboBrain:智源开源具身大脑模型,32B参数实现跨机器人协作

智源研究院推出的开源具身大脑模型RoboBrain,通过多阶段训练策略和模块化设计,在任务规划、可操作区域感知和轨迹预测等机器人核心能力上实现突破性进展。

118 46
|
27天前
|
人工智能 数据可视化 数据挖掘
|

QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。

161 15
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
|

BizGen:长文秒变信息图!AI排版黑科技碾压PPT,十语种一键出图

清华大学与微软联合推出的BizGen AI工具,能自动将长篇文章转化为专业信息图和幻灯片,支持10种语言和多种风格,排版准确率远超同类产品。

117 11
我要发布