论文推荐:CoSTAast、Transformers without Normalization

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!

CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

论文链接:

https://huggingface.co/papers/2503.10613  

简要介绍:

由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

核心图片:

image.png


Transformers without Normalization

论文链接:

https://modelscope.cn/papers/126286

简要介绍:

由Meta FAIR、NYU等团队联手推出的这项研究,挑战了规范化层在Transformer中的必要性。他们提出了Dynamic Tanh(DyT),一种简单操作替代规范化层,不仅保持甚至提升了模型性能,还无需过多超参数调整。实验验证了DyT在视觉与语言任务中的广泛适用性,为神经网络设计提供了新思路。

核心图片:

image.png


Charting and Navigating Hugging Face's Model Atlas

论文链接:

https://huggingface.co/papers/2503.10633  

简要介绍:

耶路撒冷希伯来大学团队打造了Hugging Face模型图谱,试图为数百万公开神经网络绘制导航蓝图。该工作通过可视化模型演化与趋势,预测模型属性,并在未文档区域利用结构先验填补空白,为大规模模型库研究提供了新工具与数据集。

核心图片:

image.png


World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

论文链接:

https://modelscope.cn/papers/126368  

简要介绍:

复旦大学等机构提出的D²PO,通过双重偏好优化联合训练状态预测与动作选择,提升了大型视觉语言模型在实体任务规划中的能力。结合树搜索机制自动收集数据,该方法在VoTa-Bench上显著超越GPT-4o,展现了更高的成功率与执行效率。

核心图片:

image.png


Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

论文链接:

https://modelscope.cn/papers/126588  

简要介绍:

KAIST团队揭示了文本到图像扩散模型的新漏洞,提出了“无声品牌攻击”。通过在训练数据中隐秘注入品牌标志,该方法让模型在无触发词的情况下生成含标志的图像,成功率高且不影响图像质量,引发了对数据安全的深思。

核心图片:

image.png


CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

论文链接:

https://modelscope.cn/papers/126707  

简要介绍:

香港科技大学(广州)团队推出的CoRe²,通过“收集-反思-精炼”三阶段范式,提升了文本到图像生成的速度与质量。该方法适用于多种扩散模型与自回归模型,在多项基准测试中表现优异,且与Z-Sampling集成时进一步提升性能。

核心图片:

image.png


GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

论文链接:

https://modelscope.cn/papers/126628  

简要介绍:

香港中文大学等团队提出了Generation Chain-of-Thought(GoT),通过语言推理链指导图像生成与编辑。结合Qwen2.5-VL与新型语义-空间引导模块,该框架在生成质量与编辑精度上均有突破,并支持交互式调整,开启了推理驱动视觉合成的新方向。

核心图片:

image.png


VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

论文链接:

https://modelscope.cn/papers/126372  

简要介绍:

上海AI实验室等机构开发的VisualPRM,一个8B参数的多模态过程奖励模型,通过Best-of-N策略提升了MLLM的推理能力。搭配VisualPRM400K数据集与VisualProcessBench基准,该模型在七个推理任务中表现出色,甚至对InternVL2.5-78B也有显著提升。

核心图片:

image.png


OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

论文链接:

https://modelscope.cn/papers/125491

简要介绍:

罗切斯特大学与Adobe Research合作推出的OmniPaint,将对象移除与插入视为相互依存的过程。通过CycleFlow训练与全新CFD指标,该框架实现了高保真编辑,保留场景几何与物理效应,成为对象导向编辑的新标杆。

核心图片:

image.png


Shifting Long-Context LLMs Research from Input to Output

论文链接:

https://modelscope.cn/papers/123598

简要介绍:

由清华大学等团队倡议的研究转向,强调长输出生成在LLM中的重要性。该文指出当前研究过于聚焦输入处理,忽略了长篇写作、规划等任务的需求,呼吁开发专为高质量长输出设计的模型,潜力巨大。

核心图片:

image.png

目录
相关文章
|
6月前
|
人工智能 API 开发工具
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。
1141 2
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。
239 1
|
7月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
278 0
|
7月前
|
存储 人工智能 数据可视化
ModelScope魔搭25年3月发布月报
在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
183 1
|
7月前
|
机器学习/深度学习 人工智能 安全
魔搭社区模型速递(3.9-3.15)
魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
172 1
|
8月前
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
279 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
7月前
|
机器学习/深度学习 人工智能 NoSQL
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。
1186 3
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
|
6月前
|
机器学习/深度学习 人工智能 算法
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。
244 27
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
|
9月前
|
供应链 算法 安全
探索区块链技术中的隐私保护机制
探索区块链技术中的隐私保护机制
344 27
|
10月前
|
存储 算法 C语言
【C语言】深入浅出:C语言链表的全面解析
链表是一种重要的基础数据结构,适用于频繁的插入和删除操作。通过本篇详细讲解了单链表、双向链表和循环链表的概念和实现,以及各类常用操作的示例代码。掌握链表的使用对于理解更复杂的数据结构和算法具有重要意义。
2937 6

热门文章

最新文章