热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR

简介: 由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。

image.png image.png 5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。来看看由「机智流」和「ModelScope」社区推荐的今日热门论文吧~

TPDiff: Temporal Pyramid Video Diffusion Model

论文链接:

https://modelscope.cn/papers/125911

简要介绍:

由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。

核心图片:

image.png


Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

论文链接:

https://modelscope.cn/papers/126168

简要介绍:

由Marianne Arriola等人提出,Block Diffusion结合自回归和扩散模型的优势,推出了一种支持灵活长度生成的高效语言模型。通过块状扩散设计和优化的训练算法,该模型在语言建模基准上刷新了扩散模型的性能纪录,支持任意长度序列生成。

核心图片:

image.png


Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

论文链接:

https://modelscope.cn/papers/126077

简要介绍:

KAIST AI的Hyeonho Jeong等人提出了Reangle-A-Video,将多视角视频生成任务重构为视频到视频的翻译问题。无需大规模4D数据集,该方法利用现有图像和视频扩散模型,通过多视角运动学习和一致性引导生成同步多视角视频,超越了现有方法。

核心图片:

image.png


GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

论文链接:

https://modelscope.cn/papers/125459

简要介绍:

清华大学Tong Wei等人提出了GTR框架,解决强化学习训练视觉-语言模型(VLM)代理时出现的“思维崩溃”问题。通过自动纠正器指导推理过程,该方法显著提升了LLaVA-7b在复杂视觉任务中的表现,成功率提升3-5倍。

核心图片:

image.png


RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

论文链接:

https://modelscope.cn/papers/125961

简要介绍:

耶路撒冷希伯来大学的Itay Chachy等人提出了RewardSDS,通过奖励加权采样增强得分蒸馏采样(SDS)的对齐能力。该方法在文本到图像、2D编辑和3D生成任务中表现出色,提升了生成质量和用户意图对齐度。

核心图片:

image.png


More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

论文链接:

https://modelscope.cn/papers/123851

简要介绍:

耶路撒冷希伯来大学的Shahar Levy等人研究了检索增强生成(RAG)中多文档处理的独立挑战。实验表明,在固定上下文长度下,文档数量增加会导致LLM性能下降高达10%,揭示了多文档处理的新难题。

核心图片:

image.png


Motion Anything: Any to Motion Generation

论文链接:

https://modelscope.cn/papers/125267

简要介绍:

由ANU的Zeyu Zhang等人提出的Motion Anything是一个多模态运动生成框架,通过注意力掩码建模实现对关键帧和动作的精细控制。还推出了包含2153组文本-音乐-舞蹈数据的TMD数据集,FID提升15%。

核心图片:

image.png


Quantizing Large Language Models for Code Generation: A Differentiated Replication

论文链接:

https://modelscope.cn/papers/125103

简要介绍:

Alessandro Giagnorio等人对代码生成LLM的量化进行了扩展研究,测试了高达34B参数的模型和2位极致量化技术。结果显示4位量化可减少70%内存占用而不损性能,代码特定数据集在极低位量化时表现更优。


WildIFEval: Instruction Following in the Wild

论文链接:

https://modelscope.cn/papers/125130

简要介绍:

耶路撒冷希伯来大学的Gili Lior等人推出了WildIFEval,一个包含12K真实用户多约束指令的大规模数据集。实验显示,随着约束数量增加,所有LLM性能均下降,揭示了复杂指令跟随的改进空间。

核心图片:

image.png


VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

论文链接:

https://modelscope.cn/papers/126245


简要介绍:

新加坡国立大学Show Lab的Kevin Qinghong Lin等人提出了VLog,通过生成式检索和叙述词汇表革新视频理解。基于GPT-2,该模型实现高效、上下文准确的视频叙述,处理长视频速度提升10倍。

核心图片:

image.png


目录
相关文章
vw、px、vh 和 rem应用场景以及区别
【4月更文挑战第2天】 vw、px、vh 和 rem应用场景以及区别
1536 10
|
开发框架 自然语言处理 前端开发
【第25期】一文读懂React企业级前端应用框架Umi
【第25期】一文读懂React企业级前端应用框架Umi
1038 0
|
Java Linux
使用supervisor纳管java进程,自动重启服务
使用supervisor守护java进程,实现服务智能管理,自动重启。
2089 0
|
12月前
|
机器学习/深度学习 自动驾驶 搜索推荐
今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等
这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。
341 1
|
人工智能 JSON 自然语言处理
阿里云百炼产品月刊【2025年1月】
本月重点包括新增批量推理功能,支持非高峰时段大规模数据处理,享有5折折扣;工作流应用新增循环节点,增强了流程定义的灵活性;数据管理新增解析设置功能,支持自动识别与转换多种数据格式。此外,还推出了多个新模型,如DeepSeek系列、Wanx2.1系列等,涵盖文本生成、图像生成、视频生成等多个领域。特别是DeepSeek-V3,具有671B参数,擅长长文本、代码、数学等领域;Wanx2.1系列则在视频和图像生成方面表现出色。通义千问系列模型也在性能和功能上进行了显著提升,特别是在语义理解和多语言支持方面。此外,本月还举办了多项AI实训营活动,包括智能体创意开发赛、新春主题创作等。
1298 0
|
安全 数据安全/隐私保护
解释 TCSEC 和 ITSEC
【8月更文挑战第31天】
1166 1
|
监控 安全 中间件
|
XML 前端开发 JavaScript
Vue vs. React:比较两大前端框架的特点与区别
Vue.js和React.js是目前前端开发中最受欢迎的两个JavaScript框架之一。虽然它们都用于构建现代、响应式的用户界面,但在细节和设计理念上存在一些重要的区别。在本博客中,我们将深入研究Vue和React之间的不同之处,以帮助您选择适合您项目需求的框架。
2063 0
|
存储 弹性计算 固态存储
阿里云服务器配置怎么选择合适?收藏级教程大家参考下
阿里云服务器配置选择涉及CPU、内存、带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型实例,如2核2G3M配置,适合低流量网站。企业用户应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。具体配置需根据实际应用需求来定。
870 0
|
机器学习/深度学习 算法 前端开发
决策树与随机森林算法在分类问题中的应用
本文探讨了决策树和随机森林两种监督学习算法,它们在分类任务中表现出强大的解释性和预测能力。决策树通过特征测试进行分类,构建涉及特征选择、树生成和剪枝。随机森林是集成学习方法,通过构建多棵决策树并汇总预测结果,防止过拟合。文中提供了Python代码示例,展示如何使用sklearn构建和应用这些模型,并讨论了参数调优和模型评估方法,如交叉验证和混淆矩阵。最后,强调了在实际问题中灵活选择和调整模型参数的重要性。
692 4

热门文章

最新文章