今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

简介: 由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的今日论文吧。

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

论文链接:

https://modelscope.cn/papers/2503.16660

简要介绍:

由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

核心图片:

image.png


MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

论文链接:

https://modelscope.cn/papers/2503.16905

简要介绍:

来自西安交通大学、新加坡国立大学等机构的团队推出了 MAPS 框架,基于“大七人格理论”和苏格拉底引导法,解决多模态科学问题(MSPs)。通过七个功能独特的代理和四阶段解题策略,外加“批判者”代理的反思机制,该方法在 EMMA、Olympiad 等数据集上超越 SOTA 模型 15.84%,展现了强大的跨模态推理能力。

核心图片:

image.png


MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

论文链接:

https://modelscope.cn/papers/2503.16874

简要介绍:

由西安交通大学、南洋理工大学等团队打造的 MARS 框架,针对自动提示优化(APO)的灵活性和搜索效率问题,提出了多代理融合技术。通过七个代理协作和“教师-批判者-学生”的苏格拉底对话模式,逐步优化提示,在多个数据集上验证了其高效性和可解释性。

核心图片:

image.png


RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

论文链接:

https://modelscope.cn/papers/2503.16408

简要介绍:

香港中文大学(深圳)、上海人工智能实验室等机构提出了 RoboFactory,探索多代理协作中的具身智能。通过引入“组合约束”(逻辑、空间、时间),设计了自动数据收集框架并推出首个多代理操作基准。基于模仿学习的测试表明,该方法在安全性与效率上表现优异。

核心图片:

image.png


Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

论文链接:

https://modelscope.cn/papers/2503.16430

简要介绍:

香港大学、字节跳动等团队提出了 TokenBridge,解决自回归视觉生成中离散与连续 token 的两难问题。通过训练后量化和维度级预测策略,该方法保留了连续 token 的表征能力,同时保持离散 token 的建模简洁性,在 ImageNet 上实现了高质量生成。

核心图片:

image.png


OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

论文链接:

https://modelscope.cn/papers/2503.17352

简要介绍:

加州大学洛杉矶分校团队推出了 OpenVLThinker,通过迭代自改进增强大型视觉-语言模型的复杂推理能力。结合监督微调和强化学习,该模型在 MathVista 等基准上表现持续提升,展示了从文本到多模态推理的潜力。

核心图片:

image.png


Modifying Large Language Model Post-Training for Diverse Creative Writing

论文链接:

https://modelscope.cn/papers/2503.17126

简要介绍:

Midjourney 和纽约大学团队研究了如何在后训练中提升 LLM 的创意写作多样性。他们通过引入“偏差”到训练目标(如 DPO 和 ORPO),在保持高质量输出的同时显著提升多样性,最佳模型媲美 GPT-4o 和 DeepSeek-R1。

核心图片:

image.png


TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

论文链接:

https://modelscope.cn/papers/2503.17032

简要介绍:

阿里巴巴团队提出了 TaoAvatar,利用 3D 高斯 splatting 技术打造实时全息说话头像。通过轻量化 MLP 网络和混合形状补偿,该方法在 AR 设备上实现 90 FPS 的高质量渲染,适用于电商直播等场景。

核心图片:

image.png


MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

论文链接:

https://modelscope.cn/papers/2503.16549

简要介绍:

浙江大学、清华大学等团队推出了 MathFlow,针对多模态 LLM 在视觉数学问题中的感知瓶颈,提出了解耦感知与推理的管道。训练的 MathFlow-P-7B 模型显著提升了信息提取能力,与多种推理模型兼容表现出色。

核心图片:

image.png


A Comprehensive Survey on Long Context Language Modeling

论文链接:

https://modelscope.cn/papers/2503.17407

简要介绍:

南京大学、北京大学等机构联合撰写的综述,全面回顾了长上下文语言模型(LCLMs)的最新进展。从数据策略到架构设计,再到训练部署与评估,为研究者和工程师提供了宝贵资源。

核心图片:

image.png


今天的论文盘点是不是让你脑洞大开?从高效 token 削减到多代理协作,再到实时 AR 头像,每篇研究都在推动 AI 的边界。别忘了点赞收藏,明天还有更多前沿技术等你探索!🚀✨

-- 完 --

目录
相关文章
|
Unix Linux Windows
如何调整服务器系统时间
如何调整服务器系统时间
1783 0
|
数据处理 计算机视觉 Python
【目标检测】指定划分COCO数据集训练(车类,行人类,狗类...)
【目标检测】指定划分COCO数据集训练(车类,行人类,狗类...)
6249 0
|
消息中间件 Java Nacos
深入了解Spring Cloud Alibaba:微服务架构的新选择
Spring Cloud Alibaba是一组为构建基于微服务架构的应用程序而设计的开源工具和框架。它融合了Spring Cloud和Alibaba的技术栈,提供了一种强大的方式来开发、部署和管理分布式应用。本文将深入介绍Spring Cloud Alibaba的核心概念和功能,帮助您更好地理解这个引人注目的技术栈。
|
机器学习/深度学习 存储 人工智能
算力资源选择指南:如何匹配你的开发需求?
本文作者结合七年分布式计算经验,深入剖析算力卡与服务器的本质区别及其选型策略。从硬件架构看,算力卡专注高性能计算,如A100/H100在矩阵运算效率上提升显著,但文件读写较弱;服务器则是全能型系统,适合多任务场景。在应用场景中,算力卡适用于机器学习训练等浮点密集任务,而服务器在部署和服务支持上更具优势。成本模型显示,算力卡三年TCO更低但运维成本更高,需根据实际需求权衡。最后,作者提供选型决策树,建议根据任务类型、生态需求和负载特征选择合适方案。
561 8
|
JSON JavaScript 前端开发
蓝桥杯web组赛题解析和杯赛技巧
本文作者是一位自学前端两年半的大一学生,在第十五届蓝桥杯Web组比赛中获得省一和国三。文章详细解析了比赛题纲,涵盖HTML、CSS、JavaScript、Echarts和Vue等技术要点,并分享了备赛技巧和比赛经验。作者强调了多写代码和解题思路的重要性,同时提供了省赛和国赛的具体流程及注意事项。希望对参赛者有所帮助。
1603 11
|
SQL 存储 安全
信息安全管理与评估赛题第7套
信息安全管理与评估赛题第7套
1271 0
|
固态存储 关系型数据库 MySQL
NVMe SSD原子写
NVMe SSD原子写
1423 0
NVMe SSD原子写
|
Ubuntu 网络协议
Ubuntu 20.04 通过ifconfig修改静态ip无法联网,重置设置后恢复网络
系统:Ubuntu 20.04 操作: 1、通过ifconfig将电脑设置为静态ip 2、接着发现无法连接网络,且电脑右上角的网络连接图标多了一个问号标识。 3、访问浏览器时会报错`DNS_PROBE_FINISHED_BAD_CONFIG`。
3012 154
Ubuntu 20.04 通过ifconfig修改静态ip无法联网,重置设置后恢复网络
|
存储 算法 索引
Draco使用笔记(1)——图形解压缩
Draco使用笔记(1)——图形解压缩
657 0
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的家政服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的家政服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
403 2

热门文章

最新文章