OmniScience:大规模科学多模态数据集重磅上线

简介: OmniScience是深势科技开源的科研图像理解数据集,含150万高质量“图-文-上下文”三元组、500万子图,覆盖10大科学领域。依托Uni-Parser与多模态大模型重描述,显著提升AI对科学图表的深层语义理解能力。

论文:https://arxiv.org/abs/2602.13758

在科学研究日益数字化的今天,大模型已经可以轻松阅读各种书籍和文献中的文本。但是如何让 AI 真正“读懂”科研文献中复杂的科学图像数据,已成为“AI for Science”领域的关键挑战。


基于深势科技(DP Technology)自研的 Uni-Parser 科学文献解析框架,科研团队近日发布了大规模科学多模态数据集 OmniScience,旨在攻克多模态大模型在科学图像领域理解力不足的瓶颈,数据集现已在ModelScope开源。

规模与质量的双重突破

OmniScience 数据集不仅在规模上达到了新的高度,在专业覆盖度上也力求极致:

  • 海量规模: 包含 150 万组“图-文-上下文”三元组,并进一步细分出超过 500 万个子图,数据总量突破 700GB,包含超过 43 亿 token。
  • 学科覆盖: 涵盖物理、化学、生物、材料科学等 10 大类核心科学领域,确保了数据的多样性与代表性。
  • 高质量来源:来源均为顶级开放获取的期刊期刊(平均影响因子 >12),以及高引用预印本,通过多重质量过滤确保文献来源具备高知识质量和高信息密度。
  • caption重撰写: 团队开发了基于动态模型路由(Model-routing)的 re-caption 方法,利用前沿的多模态大模型(Gemini-3-Pro,GPT-5, Qwen3-VL-235B等),参考论文中的原始图像caption和上下文内容,对图像进行深度解析,生成了信息密度更高、语义更准确的自我完备描述。让caption 在 Qwen3-VL-Reranker-8B 上测试的reranker score从 0.769 提升到 0.956,极大提高了图文的深层语义相关性。同时把caption平均长度从 106提升到 361个单词。
  • 多轮质量过滤:通过多轮质量控制规则、去重流水线,以及大模型质量评估和幻觉检测,确保了数据质量。

显著提升模型科学素养

研究团队通过对 Qwen2.5-VL-3B 等模型进行微调,基于CaptionQA范式,验证了 OmniScience 的巨大价值。实验结果显示:

  • 在科学理解评测基准 MM-MT-Bench 上,模型表现提升了 0.378
  • 在综合性多模态基准 MMMU 上取得了 0.140 的显著增益。


这证明了使用OmniScience数据能够有效增强AI对实验表征图、原理示意图及分析图表的理解能力。此外,通过LLM-as-a-judge方法对训练后的模型进行评估,可以发现:相较于原始模型以及使用MMSCI或ArXivCap数据训练的模型,基于OmniScience数据训练的模型在语言流畅度、准确率、图文一致性以及细节描述等方面均表现出显著优势。验证了 OmniScience 的巨大价值。

希望OmniScience数据的开源,让模型不仅能看图说话,更能理解科学多模态表达和推理的深层逻辑。推动AI for Science以及科学多模态大模型的发展。


数据集:https://www.modelscope.cn/datasets/UniParser/OmniScience

目录
相关文章
|
12天前
|
机器学习/深度学习 搜索推荐 算法
拆解推荐系统:候选生成、过滤、排序、多样性的分层设计
推荐系统是端到端流水线,非单一算法:涵盖候选生成、过滤、特征工程、多目标排序、多样性调控与反馈闭环。强调关注点分离,以保障质量、速度与行为可控。动手前须明确定义Item、用户行为及成功指标。
206 12
拆解推荐系统:候选生成、过滤、排序、多样性的分层设计
|
11天前
|
数据采集 自动驾驶 算法
道路设施目标检测数据集(约5000张已标注)|YOLO训练与智能交通应用数据集
本数据集含约5000张真实道路图像,精准标注交通标志、热塑标线、金属护栏、减速带4类设施,采用YOLO标准格式(归一化bbox),已划分train/val/test集。覆盖多场景、多光照、多尺度,支持YOLOv5/v8等直接训练,适用于智能巡检、自动驾驶感知与交通管理。
376 11
道路设施目标检测数据集(约5000张已标注)|YOLO训练与智能交通应用数据集
|
16天前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
880 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
17天前
|
存储 安全 测试技术
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析
ADK 提供 Sequential、Parallel、Loop 三种智能体编排模式,支持订单接收、库存检查、生产调度等多角色协同;状态通过 output_key 自动流转,无需手写胶水代码,轻松构建端到端业务流水线。
112 4
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析
|
5天前
|
JSON Java fastjson
SpringBoot对接黄金白银期货数据API
该API提供黄金、白银等期货实时行情与K线数据,支持JSON格式。需传入API Key认证,通过/market获取产品ID(PID),再调用/queryFutures或/kline接口获取详情或指定周期K线(如PT1M、P1D)。附OkHttp Java示例及关键字段说明。
|
2天前
|
JavaScript 算法 Java
在线Cron表达式生成器核心JS实现
这是一个基于 Vue2 的 Cron 表达式可视化生成工具,支持 Linux/Spring/Quartz 三种语法。通过统一字段模型实现配置与表达式双向同步,自动生成可读描述及下一次执行时间,并用纯 JS 引擎精准处理 Quartz 特殊语义(如 L、W、#)。
43 1
|
6天前
|
开发框架 安全 .NET
【全网最详细】.NET Framework 3.5下载安装图文教程 | .NET3.5环境搭建使用指南
.NET Framework 3.5是2007年发布的经典版本,支持LINQ、WPF、WCF等关键技术,至今仍是许多老软件运行所必需。Windows 11中需通过“启用Windows功能”单独安装。该版本已终止支持,存在安全风险,建议新项目选用.NET 4.8或.NET 8。

热门文章

最新文章