作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!
作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
论文链接:
https://huggingface.co/papers/2503.10613
简要介绍:
由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。
核心图片:
Transformers without Normalization
论文链接:
https://modelscope.cn/papers/126286
简要介绍:
由Meta FAIR、NYU等团队联手推出的这项研究,挑战了规范化层在Transformer中的必要性。他们提出了Dynamic Tanh(DyT),一种简单操作替代规范化层,不仅保持甚至提升了模型性能,还无需过多超参数调整。实验验证了DyT在视觉与语言任务中的广泛适用性,为神经网络设计提供了新思路。
核心图片:
Charting and Navigating Hugging Face's Model Atlas
论文链接:
https://huggingface.co/papers/2503.10633
简要介绍:
耶路撒冷希伯来大学团队打造了Hugging Face模型图谱,试图为数百万公开神经网络绘制导航蓝图。该工作通过可视化模型演化与趋势,预测模型属性,并在未文档区域利用结构先验填补空白,为大规模模型库研究提供了新工具与数据集。
核心图片:
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
论文链接:
https://modelscope.cn/papers/126368
简要介绍:
复旦大学等机构提出的D²PO,通过双重偏好优化联合训练状态预测与动作选择,提升了大型视觉语言模型在实体任务规划中的能力。结合树搜索机制自动收集数据,该方法在VoTa-Bench上显著超越GPT-4o,展现了更高的成功率与执行效率。
核心图片:
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models
论文链接:
https://modelscope.cn/papers/126588
简要介绍:
KAIST团队揭示了文本到图像扩散模型的新漏洞,提出了“无声品牌攻击”。通过在训练数据中隐秘注入品牌标志,该方法让模型在无触发词的情况下生成含标志的图像,成功率高且不影响图像质量,引发了对数据安全的深思。
核心图片:
CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
论文链接:
https://modelscope.cn/papers/126707
简要介绍:
香港科技大学(广州)团队推出的CoRe²,通过“收集-反思-精炼”三阶段范式,提升了文本到图像生成的速度与质量。该方法适用于多种扩散模型与自回归模型,在多项基准测试中表现优异,且与Z-Sampling集成时进一步提升性能。
核心图片:
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
论文链接:
https://modelscope.cn/papers/126628
简要介绍:
香港中文大学等团队提出了Generation Chain-of-Thought(GoT),通过语言推理链指导图像生成与编辑。结合Qwen2.5-VL与新型语义-空间引导模块,该框架在生成质量与编辑精度上均有突破,并支持交互式调整,开启了推理驱动视觉合成的新方向。
核心图片:
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning
论文链接:
https://modelscope.cn/papers/126372
简要介绍:
上海AI实验室等机构开发的VisualPRM,一个8B参数的多模态过程奖励模型,通过Best-of-N策略提升了MLLM的推理能力。搭配VisualPRM400K数据集与VisualProcessBench基准,该模型在七个推理任务中表现出色,甚至对InternVL2.5-78B也有显著提升。
核心图片:
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting
论文链接:
https://modelscope.cn/papers/125491
简要介绍:
罗切斯特大学与Adobe Research合作推出的OmniPaint,将对象移除与插入视为相互依存的过程。通过CycleFlow训练与全新CFD指标,该框架实现了高保真编辑,保留场景几何与物理效应,成为对象导向编辑的新标杆。
核心图片:
Shifting Long-Context LLMs Research from Input to Output
论文链接:
https://modelscope.cn/papers/123598
简要介绍:
由清华大学等团队倡议的研究转向,强调长输出生成在LLM中的重要性。该文指出当前研究过于聚焦输入处理,忽略了长篇写作、规划等任务的需求,呼吁开发专为高质量长输出设计的模型,潜力巨大。
核心图片: