RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,AI 时代不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的今日论文吧。


RWKV-7 "Goose" with Expressive Dynamic State Evolution

论文链接:

https://modelscope.cn/papers/128111

简要介绍:

由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。

核心图片:

image.png


Impossible Videos

论文链接:

https://modelscope.cn/papers/128074

简要介绍:

由新加坡国立大学 Show Lab 提出的 "Impossible Videos" 研究,聚焦于生成和理解“不可能视频”(如违反物理规律的场景)。该工作推出了 IPV-Bench 基准,包含4大领域、14类场景,挑战视频生成与理解模型的极限。实验揭示了现有模型在创意与推理上的不足,为下一代视频模型指明方向。

核心图片:

image.png



DAPO: An Open-Source LLM Reinforcement Learning System at Scale

论文链接:

https://modelscope.cn/papers/128212

简要介绍:

由 ByteDance Seed 和清华大学 AIR 等机构联合开发的 DAPO,是一种开源的大规模强化学习系统,基于 Qwen2.5-32B 模型在 AIME 2024 上取得50分佳绩。它提出了“解耦剪切与动态采样策略优化”算法,通过四大技术突破提升了长链推理能力,完全开源代码和数据集,推动社区复制工业级RL成果。

核心图片:

image.png


Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

论文链接:

https://modelscope.cn/papers/127996

简要介绍:

由浙江大学、上海人工智能实验室等机构推出的 Creation-MMBench,是首个评估多模态大语言模型(MLLM)创意能力的基准。它包含765个测试用例,覆盖51个细粒度任务,揭示开源MLLM在创意任务中远逊于商业模型,并分析视觉微调对创造力的负面影响,为多模态智能发展提供洞见。

核心图片:

image.png




DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

论文链接:

https://modelscope.cn/papers/127746

简要介绍:

由澳门大学、清华大学等机构提出的 DeepPerception,针对知识密集型视觉接地(KVG)任务增强了MLLM的认知视觉感知能力。通过自动数据合成和两阶段训练框架(监督微调+强化学习),它在 KVG-Bench 上提升了8.08%的准确率,展现出卓越的跨领域泛化能力。

核心图片:

image.png



Infinite Mobility: Scalable High-Fidelity Synthesis of Articulated Objects via Procedural Generation

论文链接:

https://modelscope.cn/papers/127434

简要介绍:

由上海人工智能实验室、香港大学等机构提出的 Infinite Mobility,通过程序化生成技术合成高保真关节对象。它超越传统数据驱动方法,生成结果媲美人工标注数据集,并可作为生成模型的训练数据,推动具身AI任务的扩展。

核心图片:

  image.png



Frac-Connections: Fractional Extension of Hyper-Connections

论文链接:

https://modelscope.cn/papers/128162

简要介绍:

由 ByteDance Seed 团队提出的 Frac-Connections,改进了Hyper-Connections,通过分割隐藏状态而非扩展宽度,降低了内存消耗。它在7B MoE模型上验证了优于残差连接的性能,为深层网络训练提供新思路。

核心图片:

image.png


 


Aligning Multimodal LLM with Human Preference: A Survey

论文链接:

https://modelscope.cn/papers/128033

简要介绍:

由 IEEE Fellow 领衔团队完成的综述,系统回顾了多模态大语言模型(MLLM)与人类偏好对齐的算法。文章探讨了应用场景、数据集构建、评估基准及未来方向,为研究者提供全面指南。

核心图片:

image.png



Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

论文链接:

https://modelscope.cn/papers/128127

简要介绍:

由 NVIDIA 推出的 Cosmos-Transfer1,是一种基于多模态控制(分割、深度、边缘)的条件世界生成模型。它通过自适应时空控制图实现高度可控生成,支持机器人Sim2Real等应用,并在NVIDIA GB200上实现实时推理。

核心图片:

image.png


目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
103 26
|
11月前
|
vr&ar 图形学 网络架构
看透物体的3D表示和生成模型:NUS团队提出X-Ray
【5月更文挑战第13天】NUS团队提出了X-Ray,一种新型3D表示方法,通过模拟X射线扫描细致捕捉物体内外特征,解决了现有方法对内部结构和纹理细节处理的局限。利用射线追踪技术,X-Ray将物体浓缩为多帧格式,提高表示效率和准确性。在3D物体合成任务中,X-Ray显示了优于传统方法的优势,尤其适用于高保真3D模型需求的领域,如虚拟现实和游戏。其效率提升也使实时3D生成更具潜力,但面对复杂场景和优化问题仍有挑战。[论文链接](https://arxiv.org/abs/2404.14329)
92 4
|
11月前
|
人工智能 测试技术 vr&ar
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
189 1
|
机器学习/深度学习 自然语言处理 数据可视化
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(2)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
159 0
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
217 0
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
157 0
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化(2)
7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化
237 0
|
传感器 机器学习/深度学习 自然语言处理
7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化(1)
7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化
117 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
178 0
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(1)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
595 0

热门文章

最新文章

下一篇
oss创建bucket