热门论文推荐：TPDiff、Block Diffusion、Reangle-A-Video、GTR-阿里云开发者社区

热门论文推荐：TPDiff、Block Diffusion、Reangle-A-Video、GTR

2025-03-18 280

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出，TPDiff是一个创新的视频扩散模型框架，针对视频生成的高计算需求问题，通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略，实验表明训练成本降低50%，推理效率提升1.5倍。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者：InternLM、Qwen 等 LLM每日一览热门论文版，顶会投稿选题不迷惘。来看看由「机智流」和「ModelScope」社区推荐的今日热门论文吧～

TPDiff: Temporal Pyramid Video Diffusion Model

论文链接：

https://modelscope.cn/papers/125911

简要介绍：

由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出，TPDiff是一个创新的视频扩散模型框架，针对视频生成的高计算需求问题，通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略，实验表明训练成本降低50%，推理效率提升1.5倍。

核心图片：

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

论文链接：

https://modelscope.cn/papers/126168

简要介绍：

由Marianne Arriola等人提出，Block Diffusion结合自回归和扩散模型的优势，推出了一种支持灵活长度生成的高效语言模型。通过块状扩散设计和优化的训练算法，该模型在语言建模基准上刷新了扩散模型的性能纪录，支持任意长度序列生成。

核心图片：

Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

论文链接：

https://modelscope.cn/papers/126077

简要介绍：

KAIST AI的Hyeonho Jeong等人提出了Reangle-A-Video，将多视角视频生成任务重构为视频到视频的翻译问题。无需大规模4D数据集，该方法利用现有图像和视频扩散模型，通过多视角运动学习和一致性引导生成同步多视角视频，超越了现有方法。

核心图片：

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

论文链接：

https://modelscope.cn/papers/125459

简要介绍：

清华大学Tong Wei等人提出了GTR框架，解决强化学习训练视觉-语言模型（VLM）代理时出现的“思维崩溃”问题。通过自动纠正器指导推理过程，该方法显著提升了LLaVA-7b在复杂视觉任务中的表现，成功率提升3-5倍。

核心图片：

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

论文链接：

https://modelscope.cn/papers/125961

简要介绍：

耶路撒冷希伯来大学的Itay Chachy等人提出了RewardSDS，通过奖励加权采样增强得分蒸馏采样（SDS）的对齐能力。该方法在文本到图像、2D编辑和3D生成任务中表现出色，提升了生成质量和用户意图对齐度。

核心图片：

Motion Anything: Any to Motion Generation

论文链接：

https://modelscope.cn/papers/125267

简要介绍：

由ANU的Zeyu Zhang等人提出的Motion Anything是一个多模态运动生成框架，通过注意力掩码建模实现对关键帧和动作的精细控制。还推出了包含2153组文本-音乐-舞蹈数据的TMD数据集，FID提升15%。

核心图片：

Quantizing Large Language Models for Code Generation: A Differentiated Replication

论文链接：

https://modelscope.cn/papers/125103

简要介绍：

Alessandro Giagnorio等人对代码生成LLM的量化进行了扩展研究，测试了高达34B参数的模型和2位极致量化技术。结果显示4位量化可减少70%内存占用而不损性能，代码特定数据集在极低位量化时表现更优。

WildIFEval: Instruction Following in the Wild

论文链接：

https://modelscope.cn/papers/125130

简要介绍：

耶路撒冷希伯来大学的Gili Lior等人推出了WildIFEval，一个包含12K真实用户多约束指令的大规模数据集。实验显示，随着约束数量增加，所有LLM性能均下降，揭示了复杂指令跟随的改进空间。

核心图片：

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

论文链接：

https://modelscope.cn/papers/126245

简要介绍：

新加坡国立大学Show Lab的Kevin Qinghong Lin等人提出了VLog，通过生成式检索和叙述词汇表革新视频理解。基于GPT-2，该模型实现高效、上下文准确的视频叙述，处理长视频速度提升10倍。

核心图片：

热门论文推荐：TPDiff、Block Diffusion、Reangle-A-Video、GTR

TPDiff: Temporal Pyramid Video Diffusion Model

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

Motion Anything: Any to Motion Generation

Quantizing Large Language Models for Code Generation: A Differentiated Replication

WildIFEval: Instruction Following in the Wild

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

ModelScope模型即服务

热门文章

最新文章

相关电子书