OmniScience:大规模科学多模态数据集重磅上线

简介: OmniScience是深势科技开源的科研图像理解数据集,含150万高质量“图-文-上下文”三元组、500万子图,覆盖10大科学领域。依托Uni-Parser与多模态大模型重描述,显著提升AI对科学图表的深层语义理解能力。

论文:https://arxiv.org/abs/2602.13758

在科学研究日益数字化的今天,大模型已经可以轻松阅读各种书籍和文献中的文本。但是如何让 AI 真正“读懂”科研文献中复杂的科学图像数据,已成为“AI for Science”领域的关键挑战。


基于深势科技(DP Technology)自研的 Uni-Parser 科学文献解析框架,科研团队近日发布了大规模科学多模态数据集 OmniScience,旨在攻克多模态大模型在科学图像领域理解力不足的瓶颈,数据集现已在ModelScope开源。

规模与质量的双重突破

OmniScience 数据集不仅在规模上达到了新的高度,在专业覆盖度上也力求极致:

  • 海量规模: 包含 150 万组“图-文-上下文”三元组,并进一步细分出超过 500 万个子图,数据总量突破 700GB,包含超过 43 亿 token。
  • 学科覆盖: 涵盖物理、化学、生物、材料科学等 10 大类核心科学领域,确保了数据的多样性与代表性。
  • 高质量来源:来源均为顶级开放获取的期刊期刊(平均影响因子 >12),以及高引用预印本,通过多重质量过滤确保文献来源具备高知识质量和高信息密度。
  • caption重撰写: 团队开发了基于动态模型路由(Model-routing)的 re-caption 方法,利用前沿的多模态大模型(Gemini-3-Pro,GPT-5, Qwen3-VL-235B等),参考论文中的原始图像caption和上下文内容,对图像进行深度解析,生成了信息密度更高、语义更准确的自我完备描述。让caption 在 Qwen3-VL-Reranker-8B 上测试的reranker score从 0.769 提升到 0.956,极大提高了图文的深层语义相关性。同时把caption平均长度从 106提升到 361个单词。
  • 多轮质量过滤:通过多轮质量控制规则、去重流水线,以及大模型质量评估和幻觉检测,确保了数据质量。

显著提升模型科学素养

研究团队通过对 Qwen2.5-VL-3B 等模型进行微调,基于CaptionQA范式,验证了 OmniScience 的巨大价值。实验结果显示:

  • 在科学理解评测基准 MM-MT-Bench 上,模型表现提升了 0.378
  • 在综合性多模态基准 MMMU 上取得了 0.140 的显著增益。


这证明了使用OmniScience数据能够有效增强AI对实验表征图、原理示意图及分析图表的理解能力。此外,通过LLM-as-a-judge方法对训练后的模型进行评估,可以发现:相较于原始模型以及使用MMSCI或ArXivCap数据训练的模型,基于OmniScience数据训练的模型在语言流畅度、准确率、图文一致性以及细节描述等方面均表现出显著优势。验证了 OmniScience 的巨大价值。

希望OmniScience数据的开源,让模型不仅能看图说话,更能理解科学多模态表达和推理的深层逻辑。推动AI for Science以及科学多模态大模型的发展。


数据集:https://www.modelscope.cn/datasets/UniParser/OmniScience

目录
相关文章
|
1月前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
1035 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
2天前
|
缓存 人工智能 安全
你不知道的 Agent:原理、架构与工程实践
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。
|
27天前
|
机器学习/深度学习 搜索推荐 算法
拆解推荐系统:候选生成、过滤、排序、多样性的分层设计
推荐系统是端到端流水线,非单一算法:涵盖候选生成、过滤、特征工程、多目标排序、多样性调控与反馈闭环。强调关注点分离,以保障质量、速度与行为可控。动手前须明确定义Item、用户行为及成功指标。
270 12
拆解推荐系统:候选生成、过滤、排序、多样性的分层设计
|
16天前
|
人工智能 运维 前端开发
Kimi K2.6开源:编码能力比肩闭源顶级模型,支持300智能体协同
Moonshot AI开源Kimi K2.6,主打长时编码、智能体协同与前端设计生成。在Terminal-Bench 2.0、SWE-Bench Pro等基准上达开源SOTA,逼近GPT-5.4与Claude Opus 4.6;智能体集群扩展至300个子智能体、4000协调步。
712 5
|
2月前
|
缓存 JSON API
玩转纳斯达克与纽交所:美股数据 API 对接全指南
本文手把手教你用StockTV API对接美股(NYSE/NASDAQ)实时行情、专业K线及IPO数据,支持WebSocket极速推送、多维技术指标与全交易所覆盖,助你快速构建低延迟量化交易或金融App。(239字)
|
26天前
|
数据采集 自动驾驶 算法
道路设施目标检测数据集(约5000张已标注)|YOLO训练与智能交通应用数据集
本数据集含约5000张真实道路图像,精准标注交通标志、热塑标线、金属护栏、减速带4类设施,采用YOLO标准格式(归一化bbox),已划分train/val/test集。覆盖多场景、多光照、多尺度,支持YOLOv5/v8等直接训练,适用于智能巡检、自动驾驶感知与交通管理。
600 12
道路设施目标检测数据集(约5000张已标注)|YOLO训练与智能交通应用数据集
|
17天前
|
JavaScript 算法 Java
在线Cron表达式生成器核心JS实现
这是一个基于 Vue2 的 Cron 表达式可视化生成工具,支持 Linux/Spring/Quartz 三种语法。通过统一字段模型实现配置与表达式双向同步,自动生成可读描述及下一次执行时间,并用纯 JS 引擎精准处理 Quartz 特殊语义(如 L、W、#)。
182 1
|
10天前
|
人工智能 安全 API
Hermes Agent保姆级教程:阿里云轻量服务器一键部署 Hermes Agent,开源自进化 AI 智能体
Hermes Agent是由Nous Research开发的开源自进化AI智能体,支持持久记忆、技能自建与多平台(Telegram/飞书等15+)接入。本文详解如何在阿里云轻量服务器上:https://t.aliyun.com/U/PEdlFP 通过预装应用镜像0基础一键部署
212 0
|
10天前
|
消息中间件 缓存 API
DeepSeek-V4 核心能力落地与实战应用指南:从底层机制到多智能体架构复盘
本文以SaaS架构师视角,深度解析DeepSeek-V4在真实生产环境中的工程落地:聚焦上下文缓存优化、强约束JSON输出、多智能体协同调度,并分享高并发下的三大避坑实战指南,助力开发者高效构建AI原生应用。
378 6

热门文章

最新文章