开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
307
内容
0
活动
249
关注
|
8月前
|
机器学习/深度学习 人工智能 监控
|

Uni-AdaFocus:清华大学开源高效视频理解框架,根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架,通过自适应聚焦机制动态调整计算资源分配,显著提升视频处理效率。

152 6
|
9月前
|
人工智能 监控 自动驾驶
|

Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频

Apollo是由Meta和斯坦福大学合作推出的大型多模态模型,专注于视频理解。该模型通过“Scaling Consistency”现象,在较小模型上的设计决策能够有效扩展至大型模型,显著提升了视频理解能力。

207 24
|
9月前
|
人工智能 算法 测试技术
|

Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。

202 42
|
9月前
|
存储 人工智能
|

Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

239 7
|
10月前
|
人工智能 API
|

EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。

192 0
我要发布