今日论文推荐:MAPS、RoboFactory、OpenVLThinker等

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的今日论文吧。

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

论文链接:

https://modelscope.cn/papers/2503.16660

简要介绍:

由 AIRI 和 MIPT 等机构提出的这项工作,聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法,通过结合自编码器和 Gumbel-Softmax 选择机制,筛选出最具信息量的 token。实验表明,在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能,为高效多模态推理开辟了新方向。

核心图片:

image.png


MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

论文链接:

https://modelscope.cn/papers/2503.16905

简要介绍:

来自西安交通大学、新加坡国立大学等机构的团队推出了 MAPS 框架,基于“大七人格理论”和苏格拉底引导法,解决多模态科学问题(MSPs)。通过七个功能独特的代理和四阶段解题策略,外加“批判者”代理的反思机制,该方法在 EMMA、Olympiad 等数据集上超越 SOTA 模型 15.84%,展现了强大的跨模态推理能力。

核心图片:

image.png


MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

论文链接:

https://modelscope.cn/papers/2503.16874

简要介绍:

由西安交通大学、南洋理工大学等团队打造的 MARS 框架,针对自动提示优化(APO)的灵活性和搜索效率问题,提出了多代理融合技术。通过七个代理协作和“教师-批判者-学生”的苏格拉底对话模式,逐步优化提示,在多个数据集上验证了其高效性和可解释性。

核心图片:

image.png


RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

论文链接:

https://modelscope.cn/papers/2503.16408

简要介绍:

香港中文大学(深圳)、上海人工智能实验室等机构提出了 RoboFactory,探索多代理协作中的具身智能。通过引入“组合约束”(逻辑、空间、时间),设计了自动数据收集框架并推出首个多代理操作基准。基于模仿学习的测试表明,该方法在安全性与效率上表现优异。

核心图片:

image.png


Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

论文链接:

https://modelscope.cn/papers/2503.16430

简要介绍:

香港大学、字节跳动等团队提出了 TokenBridge,解决自回归视觉生成中离散与连续 token 的两难问题。通过训练后量化和维度级预测策略,该方法保留了连续 token 的表征能力,同时保持离散 token 的建模简洁性,在 ImageNet 上实现了高质量生成。

核心图片:

image.png


OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

论文链接:

https://modelscope.cn/papers/2503.17352

简要介绍:

加州大学洛杉矶分校团队推出了 OpenVLThinker,通过迭代自改进增强大型视觉-语言模型的复杂推理能力。结合监督微调和强化学习,该模型在 MathVista 等基准上表现持续提升,展示了从文本到多模态推理的潜力。

核心图片:

image.png


Modifying Large Language Model Post-Training for Diverse Creative Writing

论文链接:

https://modelscope.cn/papers/2503.17126

简要介绍:

Midjourney 和纽约大学团队研究了如何在后训练中提升 LLM 的创意写作多样性。他们通过引入“偏差”到训练目标(如 DPO 和 ORPO),在保持高质量输出的同时显著提升多样性,最佳模型媲美 GPT-4o 和 DeepSeek-R1。

核心图片:

image.png


TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

论文链接:

https://modelscope.cn/papers/2503.17032

简要介绍:

阿里巴巴团队提出了 TaoAvatar,利用 3D 高斯 splatting 技术打造实时全息说话头像。通过轻量化 MLP 网络和混合形状补偿,该方法在 AR 设备上实现 90 FPS 的高质量渲染,适用于电商直播等场景。

核心图片:

image.png


MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

论文链接:

https://modelscope.cn/papers/2503.16549

简要介绍:

浙江大学、清华大学等团队推出了 MathFlow,针对多模态 LLM 在视觉数学问题中的感知瓶颈,提出了解耦感知与推理的管道。训练的 MathFlow-P-7B 模型显著提升了信息提取能力,与多种推理模型兼容表现出色。

核心图片:

image.png


A Comprehensive Survey on Long Context Language Modeling

论文链接:

https://modelscope.cn/papers/2503.17407

简要介绍:

南京大学、北京大学等机构联合撰写的综述,全面回顾了长上下文语言模型(LCLMs)的最新进展。从数据策略到架构设计,再到训练部署与评估,为研究者和工程师提供了宝贵资源。

核心图片:

image.png


今天的论文盘点是不是让你脑洞大开?从高效 token 削减到多代理协作,再到实时 AR 头像,每篇研究都在推动 AI 的边界。别忘了点赞收藏,明天还有更多前沿技术等你探索!🚀✨

-- 完 --

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 机器人
上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1
由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。
262 1
|
7月前
|
存储 机器学习/深度学习 人工智能
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。
462 8
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
|
5月前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
293 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
存储 缓存 算法
ICDE2024 |VDTuner:向量数据库自动调优技术
在CodeFuse接入实际业务的过程中,大模型的推理成本以及生成内容的准确性是产品规模落地的两个核心考量因素。为了降低推理成本,我们研发了CodeFuse-ModelCache语义缓存加速功能,通过引入Cache机制,缓存已经计算的结果,当接收到类似请求后直接提取缓存结果返回给用户。另一方面,为了提升代码生成的准确度,我们引入了few shot机制,在输入大模型之前拼接一些类似的代码片段,帮助大模型更好的理解希望生成的目标代码。上述两个核心功能的实现都依赖于向量数据库(Vector Data Management Systems, VDMS)存储并检索相似的请求或者代码片段。
563 1
|
12月前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
826 2
|
Web App开发 XML 数据可视化
MathML详解
MathML(数学标记语言)是一种基于XML的语言,用于在Web页面中结构化地展示数学公式和符号。它通过内容模型和表现模型描述数学表达式的语义和排版,广泛应用于教育、科学出版等领域,并支持屏幕阅读器提升可访问性。尽管现代浏览器如Firefox对其支持良好,但在某些浏览器中可能需额外插件才能正确渲染。MathML的优点包括结构化表示和高可读性,但也存在一定的学习曲线和兼容性问题。
|
机器学习/深度学习
langchain 入门指南 - 文本分片及向量化
langchain 入门指南 - 文本分片及向量化
631 0
|
人工智能 运维 物联网
自动化运维的演进之路:从脚本到AI
【6月更文挑战第30天】自动化运维,作为提升IT效率和稳定性的关键手段,经历了从简单的脚本编写到集成复杂人工智能技术的跨越。本文将探讨自动化运维的发展历程,分析当前技术趋势,并展望未来可能的变革。
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的家政服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的家政服务管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
231 2
|
缓存 Linux 开发工具
docker的centos容器使用yum报错
docker的centos容器使用yum报错
440 0

热门文章

最新文章