热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。

image.png image.png 5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。来看看由「机智流」和「ModelScope」社区推荐的今日热门论文吧~

TPDiff: Temporal Pyramid Video Diffusion Model

论文链接:

https://modelscope.cn/papers/125911

简要介绍:

由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。

核心图片:

image.png


Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

论文链接:

https://modelscope.cn/papers/126168

简要介绍:

由Marianne Arriola等人提出,Block Diffusion结合自回归和扩散模型的优势,推出了一种支持灵活长度生成的高效语言模型。通过块状扩散设计和优化的训练算法,该模型在语言建模基准上刷新了扩散模型的性能纪录,支持任意长度序列生成。

核心图片:

image.png


Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

论文链接:

https://modelscope.cn/papers/126077

简要介绍:

KAIST AI的Hyeonho Jeong等人提出了Reangle-A-Video,将多视角视频生成任务重构为视频到视频的翻译问题。无需大规模4D数据集,该方法利用现有图像和视频扩散模型,通过多视角运动学习和一致性引导生成同步多视角视频,超越了现有方法。

核心图片:

image.png


GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

论文链接:

https://modelscope.cn/papers/125459

简要介绍:

清华大学Tong Wei等人提出了GTR框架,解决强化学习训练视觉-语言模型(VLM)代理时出现的“思维崩溃”问题。通过自动纠正器指导推理过程,该方法显著提升了LLaVA-7b在复杂视觉任务中的表现,成功率提升3-5倍。

核心图片:

image.png


RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

论文链接:

https://modelscope.cn/papers/125961

简要介绍:

耶路撒冷希伯来大学的Itay Chachy等人提出了RewardSDS,通过奖励加权采样增强得分蒸馏采样(SDS)的对齐能力。该方法在文本到图像、2D编辑和3D生成任务中表现出色,提升了生成质量和用户意图对齐度。

核心图片:

image.png


More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

论文链接:

https://modelscope.cn/papers/123851

简要介绍:

耶路撒冷希伯来大学的Shahar Levy等人研究了检索增强生成(RAG)中多文档处理的独立挑战。实验表明,在固定上下文长度下,文档数量增加会导致LLM性能下降高达10%,揭示了多文档处理的新难题。

核心图片:

image.png


Motion Anything: Any to Motion Generation

论文链接:

https://modelscope.cn/papers/125267

简要介绍:

由ANU的Zeyu Zhang等人提出的Motion Anything是一个多模态运动生成框架,通过注意力掩码建模实现对关键帧和动作的精细控制。还推出了包含2153组文本-音乐-舞蹈数据的TMD数据集,FID提升15%。

核心图片:

image.png


Quantizing Large Language Models for Code Generation: A Differentiated Replication

论文链接:

https://modelscope.cn/papers/125103

简要介绍:

Alessandro Giagnorio等人对代码生成LLM的量化进行了扩展研究,测试了高达34B参数的模型和2位极致量化技术。结果显示4位量化可减少70%内存占用而不损性能,代码特定数据集在极低位量化时表现更优。


WildIFEval: Instruction Following in the Wild

论文链接:

https://modelscope.cn/papers/125130

简要介绍:

耶路撒冷希伯来大学的Gili Lior等人推出了WildIFEval,一个包含12K真实用户多约束指令的大规模数据集。实验显示,随着约束数量增加,所有LLM性能均下降,揭示了复杂指令跟随的改进空间。

核心图片:

image.png


VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

论文链接:

https://modelscope.cn/papers/126245


简要介绍:

新加坡国立大学Show Lab的Kevin Qinghong Lin等人提出了VLog,通过生成式检索和叙述词汇表革新视频理解。基于GPT-2,该模型实现高效、上下文准确的视频叙述,处理长视频速度提升10倍。

核心图片:

image.png


目录
打赏
0
0
0
0
231
分享
相关文章
【YOLOv8改进】LSKNet(Large Selective Kernel Network ):空间选择注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的有效改进和实战应用,包括卷积、主干网络、注意力机制和检测头的创新。提出的新模型LSKNet利用大型选择性核关注遥感场景的先验知识,动态调整感受野,提升目标检测效果。创新点包括LSKblock Attention、大型选择性核网络和适应性感受野调整。LSKNet在多个遥感检测基准上取得最优性能,且结构轻量。此外,文章提供了YOLOv8的LSKNet实现代码。更多详情可查阅相关专栏链接。
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析2
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
416 2
|
10月前
[Transformer-XL]论文实现:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[Transformer-XL]论文实现:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
48 1
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析1
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
208 1
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2105.13290v3.pdf 代码地址:https://github.com/THUDM/CogView 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
MirrorGAN通过学习文本-图像-文本,试图从生成的图像中重新生成文本描述,从而加强保证文本描述和视觉内容的一致性。文章被2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:https://arxiv.org/abs/1903.05854 代码地址:https://github.com/qiaott/MirrorGAN
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。 论文地址:https://arxiv.org/abs/2008.05865 代码地址:https://github.com/tobran/DF-GAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
基于GAN的文本生成图像,最早在2016年由Reed等人提出,最开始是Conditional GANs的扩展,仅在受限的数据集取得成果,小图像分辨率64*64。
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
Text to image论文精读SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN
Semantic-Spatial Aware GAN提出了一种新的语义空间感知GAN框架,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2104.00567v3.pdf 代码地址:https://github.com/wtliao/text2image 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

热门文章

最新文章