今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。

image.png image.png 5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif


作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会选题投稿不迷惘。开来看看由「机智流」和「ModelScope」社区今天推荐的论文吧!!!

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

论文链接:

https://www.modelscope.cn/papers/127016

简要介绍:由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。

核心图片:

image.png


PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

论文链接:

https://modelscope.cn/papers/125501

简要介绍:由三星研究院提出的PLADIS是一种新颖高效的方法,通过利用稀疏注意力提升预训练模型(U-Net/Transformer)性能。该方法在推理过程中使用softmax及其稀疏对应物在交叉注意力层中外推查询-键相关性,无需额外训练或神经函数评估(NFEs)。PLADIS通过利用稀疏注意力的噪声鲁棒性,释放了文本到图像扩散模型的潜在潜力,使其在曾经表现不佳的领域中也能展现新的有效性。

核心图片:

image.png


Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

论文链接:

https://www.modelscope.cn/papers/126948

简要介绍:这项研究提出了对抗性数据收集(ADC),一种人在环(HiL)框架,通过实时双向人机互动重新定义机器人数据获取。与传统被动记录静态演示的管道不同,ADC采用协作扰动范式:在单个场景中,对抗操作员动态改变物体状态、环境条件和语言命令,而远程操作员适应性地调整行动以克服这些不断变化的挑战。这个过程将多样化的失败-恢复行为、组合任务变化和环境扰动压缩到最少的演示中。

核心图片:

image.png


Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

论文链接:

https://www.modelscope.cn/papers/126955

简要介绍:由清华大学等机构提出的这项调查研究系统地总结了状态空间模型(SSMs)。SSMs已成为流行的Transformer模型的有前景的替代方案,并受到越来越多的关注。与Transformer相比,SSMs在处理序列数据或更长上下文的任务上表现出色,在保持相当性能的同时显著提高了效率。该调查将SSM系列分为三个主要部分:原始SSM、由S4代表的结构化SSM和以Mamba为代表的选择性SSM。

核心图片:

image.png


API Agents vs. GUI Agents: Divergence and Convergence

论文链接:

https://www.modelscope.cn/papers/126771

简要介绍:由微软研究团队提出的这项研究是首个API代理和GUI代理的全面比较研究,系统分析了它们的分歧和潜在融合。大型语言模型(LLMs)已经超越了简单的文本生成,为直接将自然语言命令转换为实际行动的软件代理提供动力。虽然基于API的LLM代理因其强大的自动化能力和与编程端点的无缝集成而最初崭露头角,但多模态LLM研究的最新进展促成了基于GUI的LLM代理,它们以类似人类的方式与图形用户界面交互。

核心图片:

image.png


Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

论文链接:

https://huggingface.co/papers/2503.11514

简要介绍:该研究全面系统地回顾了梯度反演攻击(GIA),并将现有方法分为三类:基于优化的GIA(OP-GIA)、基于生成的GIA(GEN-GIA)和基于分析的GIA(ANA-GIA)。联邦学习(FL)作为一种有前景的隐私保护协作模型训练范式已经崭露头角,无需共享原始数据。然而,最近的研究表明,私人信息仍然可以通过共享梯度信息泄漏,并受到梯度反演攻击(GIA)的攻击。

image.png


SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

论文链接:

https://www.modelscope.cn/papers/127088

简要介绍:由IBM Research和HuggingFace团队提出的SmolDocling是一个超紧凑视觉语言模型,专注于端到端文档转换。该模型通过生成DocTags(一种新的通用标记格式)来全面处理整个页面,捕捉所有页面元素及其完整上下文和位置信息。与现有的依赖大型基础模型的方法不同,SmolDocling提供了一个端到端的转换解决方案,在256M参数的视觉语言模型中准确捕捉文档元素的内容、结构和空间位置。

核心图片:

image.png


FlowTok: Flowing Seamlessly Across Text and Image Tokens

论文链接:

https://www.modelscope.cn/papers/126758

简要介绍:由字节跳动和约翰霍普金斯大学研究团队提出的FlowTok是一个最小化框架,通过将图像编码成紧凑的1D标记表示,实现文本和图像之间的无缝流动。与传统方法将文本视为条件信号逐渐引导从高斯噪声到目标图像的去噪过程不同,FlowTok探索了一种更简单的范式——通过流匹配直接在文本和图像模态之间演化,这需要将两种模态投影到共享潜空间中。

核心图片:


TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

论文链接:

https://www.modelscope.cn/papers/127064

简要介绍:由哈佛医学院等机构提出的TxAgent是一个AI代理,利用多步推理和实时生物医学知识检索,跨211个工具的工具箱分析药物相互作用、禁忌症和患者特定治疗策略。TxAgent在分子、药代动力学和临床层面评估药物相互作用,根据患者合并症和并发药物识别禁忌症,并根据个体患者特征(包括年龄、遗传因素和疾病进展)量身定制治疗策略。

image.png


Large-scale Pre-training for Grounded Video Caption Generation

论文链接:

https://www.modelscope.cn/papers/126916

简要介绍:用于视频中的字幕和对象定位,其中字幕中的对象通过时间密集的边界框在视频中被定位。研究者提出了一种大规模自动标注方法,将带有边界框的字幕从单个帧聚合到时间密集且一致的边界框标注中。他们将这种方法应用于HowTo100M数据集,构建了一个大规模预训练数据集HowToGround1M,并提出了一个名为GROVE的视频字幕生成模型。

核心图片:

image.png


Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers(9票)

论文链接:

https://www.modelscope.cn/papers/126998

简要介绍:由滑铁卢大学、多伦多大学和01.AI联合提出的VAMBA是一种混合Mamba-Transformer模型,采用线性复杂度的Mamba-2块来编码视频标记。不需要任何标记减少,VAMBA可以在单个GPU上编码超过1024帧(640×360)的视频,而基于transformer的模型只能编码256帧。在长视频输入方面,VAMBA在训练和推理过程中实现了至少50%的GPU内存使用量减少,并且每个训练步骤的速度几乎是基于transformer的LMMs的两倍。

核心图片:

image.png

-- 完 --

目录
打赏
0
2
2
0
232
分享
相关文章
【论文速递】CSET - 小数据的大AI潜力
【论文速递】CSET - 小数据的大AI潜力
81 0
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
43 0
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具,基于大型语言模型(LLM)代理,支持从研究想法到论文发表的全流程自动化,涵盖文献综述、算法设计、实验验证和论文撰写等功能。
135 8
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
379 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
2月前
|
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
95 27
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
431 1
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
109 4
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
141 1
论文介绍:AI击败最先进全球洪水预警系统,提前7天预测河流洪水
【5月更文挑战第4天】研究人员开发的AI模型(基于LSTM网络)成功击败全球最先进的洪水预警系统,能在未设测站流域提前7天预测洪水,显著提升预警时间,降低灾害影响。该模型使用公开数据集,减少了对长期观测数据的依赖,降低了预警系统的成本,有望帮助资源有限的地区。然而,模型的性能可能受特定流域条件影响,泛化能力和预测解释性仍有待改进。[论文链接](https://www.nature.com/articles/s41586-024-07145-1)
249 11
|
10月前
|
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
170 3

热门文章

最新文章