今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会选题投稿不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的论文吧!

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

论文链接:

https://modelscope.cn/papers/127180

简要介绍:这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。

核心图片:

image.png

image.png

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

论文链接:

https://modelscope.cn/papers/124784

简要介绍:由北京科技大学等机构提出的DropletVideo研究了视频生成中的时空一致性问题。该工作构建了DropletVideo-10M数据集,包含1000万个具有动态相机运动和物体动作的视频,每个视频都配有详细的字幕描述相机运动和情节发展。基于此,他们开发了DropletVideo模型,该模型能在视频生成过程中保持出色的时空连贯性,尤其是在处理多个情节和相机移动的复杂场景时表现优异。

核心图片:

image.png

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

论文链接:

https://modelscope.cn/papers/127565

简要介绍:Being-0是一个层次化代理框架,集成了基础模型和模块化技能库。该工作提出了一个新颖的"连接器"模块,由轻量级视觉语言模型驱动,负责将语言计划转化为可执行的技能命令并协调运动和操作以提高任务成功率。实验表明,Being-0在解决需要挑战性导航和操作子任务的复杂长期任务方面取得了显著效果,平均完成率达到84.4%。

核心图片:

image.png

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

论文链接:

https://huggingface.co/papers/2503.12885

简要介绍:DreamRenderer是一个基于FLUX模型的无训练方法,允许用户通过边界框或蒙版控制每个实例的内容,同时确保整体视觉和谐。该工作提出了两个关键创新:1)桥接图像标记用于硬文本属性绑定,确保T5文本嵌入在联合注意力过程中绑定正确的视觉属性;2)仅在关键层应用硬图像属性绑定,从而实现精确控制同时保持图像质量。

核心图片:

image.png

Personalize Anything for Free with Diffusion Transformer

论文链接:

https://modelscope.cn/papers/127774

简要介绍:该研究发现了扩散变换器(DiT)中未开发的潜力,仅通过将降噪标记替换为参考主体的标记就能实现零样本主体重建。基于此观察,研究提出了"Personalize Anything"框架,通过时间步适应性标记替换和补丁扰动策略实现DiT中的个性化图像生成。该方法无需任务训练,即可支持布局引导生成、多主体个性化和蒙版控制编辑等多种场景。

核心图片:

image.png

Edit Transfer: Learning Image Editing via Vision In-Context Relations

论文链接:

https://modelscope.cn/papers/127525

简要介绍:研究者提出了一种新的编辑设置"Edit Transfer",模型从单个源-目标示例中学习转换并将其应用到新的查询图像。受大型语言模型中上下文学习的启发,他们提出了一种视觉关系上下文学习范式,基于DiT文本到图像模型构建。通过将编辑示例和查询图像排列成统一的四面板复合图,然后应用轻量级LoRA微调来捕获复杂的空间转换。尽管仅使用42个训练样本,Edit Transfer仍在各种非刚性场景中显著优于最先进的文本图像编辑和参考图像编辑方法。

核心图片:

image.png

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

论文链接:

https://modelscope.cn/papers/127426

简要介绍:SPIN-Bench是一个新的多领域评估框架,专为测量战略规划和社会推理的智能水平而设计。该基准将经典PDDL任务、竞争性棋盘游戏、合作纸牌游戏和多代理协商场景结合在一个统一框架中,通过系统地变化行动空间、状态复杂性和交互代理数量来模拟各种社交环境。实验表明,尽管当代LLM在基本事实检索和短程规划方面表现合理,但在涉及深度多跳推理和社交协调的任务中遇到了显著的性能瓶颈。

核心图片:

image.png

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization(17票)

论文链接:

https://modelscope.cn/papers/127779

简要介绍:研究者设计了步骤组相对策略优化(StepGRPO),这是一个新的在线强化学习框架,通过简单、有效和密集的步骤奖励使MLLM自我改进推理能力。该方法引入了两种新的基于规则的推理奖励:步骤推理准确性奖励(StepRAR)和步骤推理有效性奖励(StepRVR)。StepRAR通过软关键步骤匹配技术奖励包含必要中间推理步骤的推理路径,而StepRVR通过推理完整性和逻辑评估策略奖励遵循结构良好且逻辑一致的推理过程。

核心图片:

image.png

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing(19票)

论文链接:

https://modelscope.cn/papers/127301

简要介绍:BlobCtrl是一个使用概率Blob表示统一元素级生成和编辑的框架。通过使用Blob作为视觉原语,该方法有效地解耦并表示空间位置、语义内容和身份信息,实现精确的元素级操作。主要贡献包括:1)具有分层特征融合的双分支扩散架构,实现前景-背景无缝集成;2)带有定制数据增强和评分函数的自监督训练范式;3)可控的dropout策略以平衡保真度和多样性。该方法在各种元素级操作任务中表现出色,同时保持计算效率。

核心图片:

image.png

WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes(16票)

论文链接:

https://modelscope.cn/papers/127577

简要介绍:WideRange4D是一个新的4D重建基准,包含具有大空间变化的丰富4D场景数据,允许更全面地评估4D生成方法的能力。同时,研究者提出了一种新的4D重建方法Progress4D,该方法将4D重建过程分为两个阶段:高质量3D重建和4D动态渐进拟合。与现有4D重建方法相比,Progress4D可以更稳定地生成高质量的4D结果,特别是在处理具有宽范围空间移动的复杂4D场景时。

核心图片:

image.png


-- 完 --

目录
相关文章
|
JavaScript 数据安全/隐私保护
vue3+element-plus权限控制实现(el-tree父子级不关联情况处理)
后台管理系统常见的权限控制需求,这里讲button实现交互细节处理, 取消选中子级menu/button,父级不关联取消; 选中/取消父级catalog/menu,子级全部选中/取消; 选中/取消部分子级menu/button,父级关联半选中状态(indeterminate=true);
610 2
|
存储 Cloud Native Ubuntu
音视频 ffmpeg命令直播拉流推流
音视频 ffmpeg命令直播拉流推流
|
3月前
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (4):模型微调SFT、DPO、GRPO
阿里云人工智能平台 PAI 提供了完整的模型微调产品能力,支持 监督微调(SFT)、偏好对齐(DPO)、强化学习微调(GRPO) 等业界常用模型微调训练方式。根据客户需求及代码能力层级,分别提供了 PAI-Model Gallery 一键微调、PAI-DSW Notebook 编程微调、PAI-DLC 容器化任务微调的全套产品功能。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型,基于7B参数的Qwen2.5架构,在金融推理任务中表现出色,支持中英双语,可应用于风控、投资、量化交易等多个金融场景。
396 5
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
|
人工智能 算法 Java
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
|
7月前
|
存储 人工智能 前端开发
Botgroup.chat:超有趣的开源 AI 聊天室!多个 AI 在线互怼,一键搭建你的专属 AI 社群
Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。
1736 28
|
7月前
|
前端开发 搜索推荐
使用DeepSeek快速创建的个人网站
这是一份使用DeepSeek快速创建个人网站的10分钟指南。内容分为四个步骤:搭建基础架构(HTML框架)、设计核心内容区块(关于我、作品展示等)、快速配置样式(CSS美化页面)以及添加联系表单并部署到GitHub Pages。通过简单的代码和DeepSeek的智能辅助功能,用户可以轻松实现个性化调整,如更换主题色、增加模块或优化响应式设计。虽然整体流程简单高效,但可能因功能有限或美观度不足而需进一步扩展与改进。
584 11
|
7月前
|
机器学习/深度学习 人工智能 数据处理
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
270 1
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
|
7月前
|
前端开发 测试技术 API
DeepSeek-V3小版本升级,非推理模型王者归来
今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
255 5
|
10月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
17733 7
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型

热门文章

最新文章