论文推荐:CoSTAast、Transformers without Normalization

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!

CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

论文链接:

https://huggingface.co/papers/2503.10613  

简要介绍:

由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

核心图片:

image.png


Transformers without Normalization

论文链接:

https://modelscope.cn/papers/126286

简要介绍:

由Meta FAIR、NYU等团队联手推出的这项研究,挑战了规范化层在Transformer中的必要性。他们提出了Dynamic Tanh(DyT),一种简单操作替代规范化层,不仅保持甚至提升了模型性能,还无需过多超参数调整。实验验证了DyT在视觉与语言任务中的广泛适用性,为神经网络设计提供了新思路。

核心图片:

image.png


Charting and Navigating Hugging Face's Model Atlas

论文链接:

https://huggingface.co/papers/2503.10633  

简要介绍:

耶路撒冷希伯来大学团队打造了Hugging Face模型图谱,试图为数百万公开神经网络绘制导航蓝图。该工作通过可视化模型演化与趋势,预测模型属性,并在未文档区域利用结构先验填补空白,为大规模模型库研究提供了新工具与数据集。

核心图片:

image.png


World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

论文链接:

https://modelscope.cn/papers/126368  

简要介绍:

复旦大学等机构提出的D²PO,通过双重偏好优化联合训练状态预测与动作选择,提升了大型视觉语言模型在实体任务规划中的能力。结合树搜索机制自动收集数据,该方法在VoTa-Bench上显著超越GPT-4o,展现了更高的成功率与执行效率。

核心图片:

image.png


Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

论文链接:

https://modelscope.cn/papers/126588  

简要介绍:

KAIST团队揭示了文本到图像扩散模型的新漏洞,提出了“无声品牌攻击”。通过在训练数据中隐秘注入品牌标志,该方法让模型在无触发词的情况下生成含标志的图像,成功率高且不影响图像质量,引发了对数据安全的深思。

核心图片:

image.png


CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

论文链接:

https://modelscope.cn/papers/126707  

简要介绍:

香港科技大学(广州)团队推出的CoRe²,通过“收集-反思-精炼”三阶段范式,提升了文本到图像生成的速度与质量。该方法适用于多种扩散模型与自回归模型,在多项基准测试中表现优异,且与Z-Sampling集成时进一步提升性能。

核心图片:

image.png


GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

论文链接:

https://modelscope.cn/papers/126628  

简要介绍:

香港中文大学等团队提出了Generation Chain-of-Thought(GoT),通过语言推理链指导图像生成与编辑。结合Qwen2.5-VL与新型语义-空间引导模块,该框架在生成质量与编辑精度上均有突破,并支持交互式调整,开启了推理驱动视觉合成的新方向。

核心图片:

image.png


VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

论文链接:

https://modelscope.cn/papers/126372  

简要介绍:

上海AI实验室等机构开发的VisualPRM,一个8B参数的多模态过程奖励模型,通过Best-of-N策略提升了MLLM的推理能力。搭配VisualPRM400K数据集与VisualProcessBench基准,该模型在七个推理任务中表现出色,甚至对InternVL2.5-78B也有显著提升。

核心图片:

image.png


OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

论文链接:

https://modelscope.cn/papers/125491

简要介绍:

罗切斯特大学与Adobe Research合作推出的OmniPaint,将对象移除与插入视为相互依存的过程。通过CycleFlow训练与全新CFD指标,该框架实现了高保真编辑,保留场景几何与物理效应,成为对象导向编辑的新标杆。

核心图片:

image.png


Shifting Long-Context LLMs Research from Input to Output

论文链接:

https://modelscope.cn/papers/123598

简要介绍:

由清华大学等团队倡议的研究转向,强调长输出生成在LLM中的重要性。该文指出当前研究过于聚焦输入处理,忽略了长篇写作、规划等任务的需求,呼吁开发专为高质量长输出设计的模型,潜力巨大。

核心图片:

image.png

目录
打赏
0
0
0
0
232
分享
相关文章
[transformer]论文实现:Attention Is All You Need(上)
[transformer]论文实现:Attention Is All You Need(上)
89 2
[RoBERTa]论文实现:RoBERTa: A Robustly Optimized BERT Pretraining Approach
[RoBERTa]论文实现:RoBERTa: A Robustly Optimized BERT Pretraining Approach
154 0
DeIT:Training data-efficient image transformers & distillation through attention论文解读
最近,基于注意力的神经网络被证明可以解决图像理解任务,如图像分类。这些高性能的vision transformer使用大量的计算资源来预训练了数亿张图像,从而限制了它们的应用。
627 0
CVPR‘2023 | Cross-modal Adaptation: 基于 CLIP 的微调新范式
CVPR‘2023 | Cross-modal Adaptation: 基于 CLIP 的微调新范式
1571 0
【Pytorch神经网络理论篇】 40 Transformers中的词表工具Tokenizer
在Transformers库中,提供了一个通用的词表工具Tokenizer,该工具是用Rust编写的,其可以实现NLP任务中数据预处理环节的相关任务。
495 0

热门文章

最新文章