今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的论文吧

φ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation

论文链接:

https://modelscope.cn/papers/127390

简要介绍:

由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding,是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术,平衡了探索与利用的关系,显著提升了大语言模型(LLM)的推理性能。实验表明,其在七个基准测试中超越了强基线,且具备跨模型通用性和计算预算扩展性。

核心图片:

image.png


DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

论文链接:

https://modelscope.cn/papers/128655

简要介绍:

清华大学、南洋理工大学等团队推出了 DeepMesh,通过自回归方式结合强化学习(RL)优化 3D 网格生成。该工作引入高效预训练策略和直接偏好优化(DPO),生成高质量艺术风格网格,超越了现有技术。

核心图片:

image.png

 

TULIP: Towards Unified Language-Image Pretraining

论文链接:

https://modelscope.cn/papers/128708

简要介绍:

加州大学伯克利分校团队研发的 TULIP,革新了图像-文本对比模型。利用生成数据增强和重建正则化,TULIP 在细粒度视觉任务中表现出色,刷新了 ImageNet-1K 零样本性能纪录。

核心图片:

  image.png

Cube: A Roblox View of 3D Intelligence

论文链接:

https://modelscope.cn/papers/128434

简要介绍:

Roblox 基础 AI 团队提出了 Cube,旨在构建 3D 智能基础模型。该工作通过 3D 形状标记化技术,支持文本到形状、场景生成等应用,迈出了实现 Roblox 体验全自动化的一步。

核心图片:

  image.png

Temporal Regularization Makes Your Video Generator Stronger

论文链接:

https://modelscope.cn/papers/128693

简要介绍:

Everlyn AI 和香港科技大学团队推出的 FluxFlow,通过时间增强优化视频生成的时间一致性和多样性。不需修改架构,仅在数据层面实现显著提升,适用于多种视频生成模型。

核心图片:

  image.png

Efficient Personalization of Quantized Diffusion Model without Backpropagation

论文链接:

https://modelscope.cn/papers/128489

简要介绍:

首尔国立大学团队提出了 ZOODiP,一种无需反向传播的量化扩散模型个性化方法。通过零阶优化和子空间梯度降噪,内存需求降低高达 8.2 倍,同时保持高质量图像生成。

核心图片:

  image.png

Optimizing Decomposition for Optimal Claim Verification

论文链接:

https://huggingface.co/papers/2503.15354  

简要介绍:

圣母大学团队提出了动态分解框架,通过强化学习优化分解策略,提升事实验证的准确性。相比传统方法,验证信心和准确率分别提升 0.07 和 0.12。

核心图片:

  image.png

MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer

论文链接:

https://modelscope.cn/papers/128431

简要介绍:

上海 AI 实验室团队研发的 MetaLadder,通过类比推理迁移提升 LLM 的数学解题能力。比标准 CoT 方法准确率提高 10.3%,模拟了人类的“举一反三”能力。

核心图片:

  image.png

STEVE: A Step Verification Pipeline for Computer-use Agent Training

论文链接:

https://modelscope.cn/papers/127813

简要介绍:

香港中文大学等团队提出的 STEVE,通过步骤验证管道训练计算机使用代理。结合 GPT-4o 和 KTO 优化,7B 模型在真实桌面环境中表现出色。

核心图片:

  image.png

MusicInfuser: Making Video Diffusion Listen and Dance

论文链接:

https://modelscope.cn/papers/128003

简要介绍:

华盛顿大学团队推出了 MusicInfuser,将视频扩散模型适配音乐生成同步舞蹈视频。无需动作捕捉,仅用轻量适配器即可实现高质量生成。

核心图片:

  image.png

LEGION: Learning to Ground and Explain for Synthetic Image Detection

论文链接:

https://modelscope.cn/papers/128659

简要介绍:

上海 AI 实验室等团队提出的 LEGION,结合 MLLM 实现合成图像检测与解释。不仅提升检测性能,还能指导生成更真实图像,刷新多项基准纪录。

核心图片:

 

image.png

目录
相关文章
|
编译器 Linux 开发工具
|
7月前
|
数据采集 人工智能 数据可视化
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。
521 5
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
509 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
7月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3428 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
7月前
|
存储 人工智能 JSON
Evolving Agents:开源Agent革命!智能体动态进化框架上线,复杂任务一键协同搞定
Evolving Agents 是一个开源的AI Agent管理与进化框架,支持智能代理之间的通信与协作,能够根据语义理解需求动态进化,适用于文档处理、医疗保健、金融分析等多个领域。
295 26
Evolving Agents:开源Agent革命!智能体动态进化框架上线,复杂任务一键协同搞定
|
12月前
|
Rust 前端开发 jenkins
Tauri 开发实践 — 使用 CI/CD 自动构建发布 Tauri 桌面端应用
本文介绍如何使用 CI/CD 自动构建发布 Tauri 应用。Tauri 是一个轻量级跨平台客户端框架,适合个人应用。文章首先概述了 CI/CD 的基本流程,并介绍了 GitHub Actions、GitLab CI 和 Jenkins 三种工具。最终选择了 GitHub Actions 进行配置。文中详细展示了使用 GitHub Actions 脚本实现 Tauri 应用构建的过程,并解决了权限和安全问题。项目源码可在 GitHub 上获取。
622 5
Tauri 开发实践 — 使用 CI/CD 自动构建发布 Tauri 桌面端应用
|
5月前
|
存储 JavaScript 安全
【HarmonyOS Next之旅】HarmonyOS开发基础知识(二)
本文主要介绍了HarmonyOS应用的配置文件说明、应用数据管理和应用安全管理三大核心内容。在配置文件说明部分,详细解析了“config.json”中app、deviceConfig和module三个关键组成部分的结构与功能,涵盖版本管理、设备配置及模块定义等细节。应用数据管理部分阐述了本地数据存储、分布式数据服务、文件共享及搜索服务等功能,确保跨设备数据一致性。应用安全管理则从开发准备、编码安全、权限使用到发布分发全流程,提供了保障应用安全的最佳实践。内容全面覆盖了HarmonyOS应用开发的核心环节,为开发者提供了详尽指导。
235 1
|
7月前
|
存储 人工智能 前端开发
Botgroup.chat:超有趣的开源 AI 聊天室!多个 AI 在线互怼,一键搭建你的专属 AI 社群
Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。
1744 28
|
7月前
|
人工智能 监控 算法
Python下的毫秒级延迟RTSP|RTMP播放器技术探究和AI视觉算法对接
本文深入解析了基于Python实现的RTSP/RTMP播放器,探讨其代码结构、实现原理及优化策略。播放器通过大牛直播SDK提供的接口,支持低延迟播放,适用于实时监控、视频会议和智能分析等场景。文章详细介绍了播放控制、硬件解码、录像与截图功能,并分析了回调机制和UI设计。此外,还讨论了性能优化方法(如硬件加速、异步处理)和功能扩展(如音量调节、多格式支持)。针对AI视觉算法对接,文章提供了YUV/RGB数据处理示例,便于开发者在Python环境下进行算法集成。最终,播放器凭借低延迟、高兼容性和灵活扩展性,为实时交互场景提供了高效解决方案。
422 4
|
7月前
|
人工智能 文字识别 自然语言处理
1.6K star!这个开源文本提取神器,5分钟搞定PDF/图片/Office文档!
Kreuzberg 是一个基于 Python 的文本提取库,支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议,具备本地处理、异步架构、智能 OCR 等特性,特别适合需要隐私保护的文档处理场景。
457 1

热门文章

最新文章