作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的论文吧
φ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation
论文链接:
https://modelscope.cn/papers/127390
简要介绍:
由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。
核心图片:
DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning
论文链接:
https://modelscope.cn/papers/128655
简要介绍:
清华大学、南洋理工大学等团队推出了 DeepMesh,通过自回归方式结合强化学习(RL)优化 3D 网格生成。该工作引入高效预训练策略和直接偏好优化(DPO),生成高质量艺术风格网格,超越了现有技术。
核心图片:
TULIP: Towards Unified Language-Image Pretraining
论文链接:
https://modelscope.cn/papers/128708
简要介绍:
加州大学伯克利分校团队研发的 TULIP,革新了图像-文本对比模型。利用生成数据增强和重建正则化,TULIP 在细粒度视觉任务中表现出色,刷新了 ImageNet-1K 零样本性能纪录。
核心图片:
Cube: A Roblox View of 3D Intelligence
论文链接:
https://modelscope.cn/papers/128434
简要介绍:
Roblox 基础 AI 团队提出了 Cube,旨在构建 3D 智能基础模型。该工作通过 3D 形状标记化技术,支持文本到形状、场景生成等应用,迈出了实现 Roblox 体验全自动化的一步。
核心图片:
Temporal Regularization Makes Your Video Generator Stronger
论文链接:
https://modelscope.cn/papers/128693
简要介绍:
Everlyn AI 和香港科技大学团队推出的 FluxFlow,通过时间增强优化视频生成的时间一致性和多样性。不需修改架构,仅在数据层面实现显著提升,适用于多种视频生成模型。
核心图片:
Efficient Personalization of Quantized Diffusion Model without Backpropagation
论文链接:
https://modelscope.cn/papers/128489
简要介绍:
首尔国立大学团队提出了 ZOODiP,一种无需反向传播的量化扩散模型个性化方法。通过零阶优化和子空间梯度降噪,内存需求降低高达 8.2 倍,同时保持高质量图像生成。
核心图片:
Optimizing Decomposition for Optimal Claim Verification
论文链接:
https://huggingface.co/papers/2503.15354
简要介绍:
圣母大学团队提出了动态分解框架,通过强化学习优化分解策略,提升事实验证的准确性。相比传统方法,验证信心和准确率分别提升 0.07 和 0.12。
核心图片:
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer
论文链接:
https://modelscope.cn/papers/128431
简要介绍:
上海 AI 实验室团队研发的 MetaLadder,通过类比推理迁移提升 LLM 的数学解题能力。比标准 CoT 方法准确率提高 10.3%,模拟了人类的“举一反三”能力。
核心图片:
STEVE: A Step Verification Pipeline for Computer-use Agent Training
论文链接:
https://modelscope.cn/papers/127813
简要介绍:
香港中文大学等团队提出的 STEVE,通过步骤验证管道训练计算机使用代理。结合 GPT-4o 和 KTO 优化,7B 模型在真实桌面环境中表现出色。
核心图片:
MusicInfuser: Making Video Diffusion Listen and Dance
论文链接:
https://modelscope.cn/papers/128003
简要介绍:
华盛顿大学团队推出了 MusicInfuser,将视频扩散模型适配音乐生成同步舞蹈视频。无需动作捕捉,仅用轻量适配器即可实现高质量生成。
核心图片:
LEGION: Learning to Ground and Explain for Synthetic Image Detection
论文链接:
https://modelscope.cn/papers/128659
简要介绍:
上海 AI 实验室等团队提出的 LEGION,结合 MLLM 实现合成图像检测与解释。不仅提升检测性能,还能指导生成更真实图像,刷新多项基准纪录。
核心图片: