OpenCSG重磅开源|CIMD开源,打造垂类数据集

简介: OpenCSG 于2026年3月开源CIMD数据集——首个面向铁矿石及矿冶产业链的跨源行业语料库,整合法规、学术、产业、市场与舆情等38万+权威记录,覆盖9大类、335个细分节点,支持RAG、Agent、领域微调等应用,推动行业AI从“能说话”迈向“真懂行”。

当 Chinese FineWeb 系列数据集在通用中文 AI 领域持续发光发热时,OpenCSG 悄然完成了一次战略转身——从通用语料走向垂直行业,从语言模型基座延伸到产业智能底座

2026 年 3 月,OpenCSG 正式开源 CIMD(Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence),一个面向铁矿石及矿冶产业链的跨来源文本数据集。这不仅是 OpenCSG 数据战略的重要升级,更是行业 AI 从“能说话”到“真懂行”的关键一步

为什么是铁矿石?垂直行业 AI 的破局之道

在大模型热潮席卷全球的今天,一个残酷的现实正在浮现:通用大模型虽然能够流畅对话,但面对专业行业问题时往往“隔靴搔痒”

以铁矿石产业为例,一个看似简单的问题“某地区铁矿石开采是否符合环保政策”,实际上需要同时调用法律法规层面的国家环保法律、地方政策文件和行业管理办法,技术标准层面的采选工艺标准、排放标准和安全生产规范,学术研究层面的矿石品位分析、选矿技术论文和环境影响评估,市场信息层面的产能产量数据、价格走势和企业经营状况,以及舆情观点层面的行业协会报告、券商研究和公众舆情。

传统的单一来源数据库只能回答局部问题——政策库侧重制度依据,论文库侧重技术原理,市场库侧重价格信号。而行业实际问题往往同时依赖法规边界、工艺机理、企业行为和市场环境,需要跨来源的连续证据链。

这正是 CIMD 的核心价值所在:将制度文本、技术文本、研究文本、经营文本和市场文本放入同一数据体系,让 AI 能够像行业专家一样进行“制度依据 + 技术材料 + 市场证据”的联合推理。

CIMD 核心特性:不只是数据堆砌,而是行业知识体系

跨来源整合:打破数据孤岛

CIMD 最大的创新在于跨来源整合。在制度层面,数据集包含 99,496 条法律法规记录,覆盖行业规章与管理办法、政策文件与行业指导。在学术层面,汇集了 28,266 条中文期刊论文、58,221 条国内会议论文、37,961 条博士学位论文,以及来自 International Journal of Mining Science and Technology 和 International Journal of Minerals, Metallurgy and Materials 的 32,215 条国际期刊文献。在产业层面,整合了科研院所报告 5,143 条、行业协会报告 4,664 条、券商与投行研究 2,343 条、企业经营信息 11,656 条、产能产量数据 6,282 条和市场交易数据 1,405 条。此外还纳入了 31,178 条社会公众与自媒体舆情。

这种跨来源结构使得同一主题可以在多种来源之间形成连续证据链,减少跨库拼接带来的语义割裂和上下文缺口。

权威来源支撑:质量与可信度的双重保障

CIMD 汇集的不是随意爬取的网络文本,而是具有代表性的权威文本。来源主体包括国家法律法规、行业标准、学术期刊、科研院所、行业协会和券商机构,专业深度覆盖铁矿石资源、采选加工、烧结球团、炼铁生产等完整产业链。每条记录都保留 source_details 字段,可以回溯到原始来源。这种权威性使得基于 CIMD 训练的模型在专业深度、行业可信度和实际应用价值上具备更高上限。

完整数据体系:不是文件汇总,而是知识图谱

CIMD 的数据组织不是简单的文件堆积,而是围绕铁矿石及矿冶产业链建立的完整行业数据体系。整个体系包含 9 个一级分类、42 个二级分类和 335 个三级/四级来源节点,覆盖法律文件与法规依据、行业规章与管理办法、政策文件与行业指导、行业标准、专利与知识产权、学术与培训资料、互联网舆情与观点分析、企业经营与运营信息、行业研究与市场报告等核心门类。这种体系化组织为专题扩展、增量采集、行业补数、基准任务设计和数据资产编目提供了结构框架。

元数据完整:从“能用”到“好用”的关键

CIMD 在每条记录中保留了丰富的元数据字段,包括 file_id、data_id、title、source_type、author、original_time、content_time、language、keywords、license_type 和 source_details。使用者可以按来源筛选只使用法律法规或只使用学术论文,按时间过滤获取特定时间段的政策变化,按语言分类进行中英文分离或混合使用,还可以将检索到的文本片段回溯到原始文件。对于长文档检索、来源归因、审计留痕、授权控制、质量抽检和数据资产管理,这类记录级元数据比单纯正文更有操作价值。

数据规模:38 万+记录,覆盖完整产业链

项目 数值
有效 JSONL 记录 382,425 条
去重文件数 57,622 个
子集数量 11 个
来源类型 52 种
数据体系层级 9 个一级分类,42 个二级分类,335 个三级/四级节点

从语言分布来看,中文记录占 60.7%(232,169 条),英文记录占 30.1%(115,113 条),其他语言占 9.2%(35,143 条)。从来源类型来看,期刊论文最多达 116,926 条,其次是国家法律法规 95,394 条、学术出版物 57,492 条、学位论文 38,075 条、社会公众与自媒体舆情 31,178 条、企业基本信息 11,656 条、产能与产量数据 6,282 条、科研院所报告 5,143 条、行业协会报告 4,664 条和国内产业政策 2,393 条。

技术亮点:对标国家数据标准,面向可信流通

CIMD 的数据组织方式与国家数据局和全国数据标准化技术委员会发布的《高质量数据集 建设指南》《高质量数据集 格式要求》《高质量数据集 分类指南》《高质量数据集 质量评测规范》以及《国家数据基础设施建设指引》等系列标准保持同向。数据集将标识、来源、分类、时间、授权和来源说明直接放在记录体内,而不是外部台账,使得同一份快照可以直接进入数据目录编制、质量抽检、授权审计、责任追踪和可信流通流程,不需要在语料之外再补一套独立的元数据体系。这种设计使得 CIMD 不仅是一个研究数据集,更是一个符合国家数据基础设施建设方向的行业数据资产。

应用场景:从检索到 Agent 的全链路支撑

CIMD 的设计目标是直接可用于模型与应用,当前公开版本以统一 JSONL 格式发布,可直接进入:

场景一:垂直领域 RAG 系统

以铁矿石产业智能问答助手为例,当用户询问“2024 年铁矿石进口政策有哪些变化”时,系统可以沿着法律法规库、政策文件库、行业研究库到市场数据库的检索路径,基于跨来源证据链生成完整答案并标注来源。统一的 JSONL 格式可以直接接入向量数据库,完整的元数据支持精确过滤和来源归因,跨来源结构天然适配多跳推理。

场景二:行业 Agent 工作流

在矿企合规审查 Agent 的应用中,系统需要评估某矿企的环保合规性。完整的工作流包括检索相关法律法规和政策文件、查询企业经营信息和产能数据、对比行业标准和技术规范、分析舆情和行业研究报告,最终生成合规评估报告。完整的数据体系可以支撑这种复杂推理链,权威来源保证结论可信度,元数据则支持审计和责任追溯。

场景三:领域继续预训练与 SFT

在构建铁矿石产业垂直大模型时,预训练阶段可以使用全量 38 万+记录进行领域知识注入,SFT 阶段基于法规问答、技术问答、市场分析等构建指令数据,评测阶段则使用 CIMD 构建行业基准测试集。中英文混合语料提升多语言能力,跨来源结构增强知识融合能力,完整元数据支持数据筛选和质量控制。

场景四:文档智能与知识抽取

在产业知识图谱构建中,CIMD 可以支持矿企名称、矿区地点、技术术语等实体识别,企业-产能、政策-影响、技术-应用等关系抽取,以及政策发布、产能变化、市场波动等事件抽取。52 种来源类型覆盖完整产业链,丰富的关键词字段辅助标注,时间字段则支持时序分析。

从 Chinese FineWeb 到 CIMD: OpenCSG 的数据战略演进

如果我们回顾 OpenCSG 的数据开源历程,会发现一条清晰的战略演进路径:

第一阶段:通用中文语料(Chinese FineWeb 系列)

这一阶段的目标是为中文大模型提供高质量预训练语料。Chinese FineWeb 被清华大学论文选为 L1 层基础数据,支撑了 CMU H-Net、MiniCPM4 等多个前沿模型,成为中文 AI 研发的必备资源。这一阶段的特点是通用、大规模、高质量。

第二阶段:垂直行业语料(CIMD)

这一阶段的目标是为行业 AI 提供专业知识底座。CIMD 实现了从通用走向垂直、从单一来源走向跨来源整合、从语料库走向知识体系、从研究数据集走向数据资产的创新。这一阶段的特点是专业、权威、体系化、可信。

这种演进反映了 OpenCSG 对 AI 发展趋势的深刻洞察:通用大模型是基础,垂直行业 AI 是未来


开源承诺:商业友好,推动产业智能化

CIMD 采用 OpenCSG 数据集许可协议(OpenCSG Dataset License Agreement)。在 Hugging Face 和 OpenCSG 平台的仓库 metadata 中,license 字段标注为 other,表示本数据集采用平台预设列表之外的自定义许可协议;数据集的实际许可条款以 OpenCSG 数据集许可协议为准。

该协议明确支持商业用途。使用者可以将数据集用于研究、评测、验证、内部开发、模型训练、模型微调、检索增强、质量分析和合规审查等场景。如果计划将本数据集、基于本数据集训练或增强的模型、系统、Agent、API 服务或商业产品用于商业场景,需要遵循该协议的相关条款。OpenCSG 的开源核心理念:既要保护数据来源方的合法权益和知识产权,又要为行业 AI 发展提供必要的数据支撑。通过清晰的授权边界、完善的合规要求和灵活的商业许可机制,CIMD 为企业合规使用行业数据、构建垂直 AI 能力提供了可信路径。

数据获取与使用指南

通过 Git 获取(推荐)

git lfs install 
git clone https://opencsg.com/datasets/OpenCSG/CIMD.git 
cd CIMD 
git lfs pull

使用 ModelScope datasets

from modelscope.msdatasets import MsDataset 
 
dataset = MsDataset.load( 
    dataset_name="CIMD", 
    namespace="opencsg",
    subset_name="state_laws",
    split="train", 
)

11 个子集说明

子集名称 记录数 文件数 内容
state_laws 99,496 7,300 法律法规、规章制度、政策文本
domestic_conference_papers 58,221 18,826 国内会议论文与会议资料
doctoral_dissertations 37,961 804 博士学位论文
public_opinion 30,705 9,427 舆情与观点资料
chinese_journals 28,266 6,412 中文期刊论文
international_journal_of_mining_science_and_technology 16,824 2,435 英文学术期刊
international_journal_of_minerals_metallurgy_and_materials 15,391 2,461 英文学术期刊
industry_research_reports 14,319 1,182 行业研究、券商、企业与产能相关材料
sintering_and_pelletizing 9,558 3,783 烧结球团专题资料
ironmaking 8,002 3,871 炼铁与生产专题资料
books 63,682 1,121 图书资料


使用注意事项

当前统计为解析记录数,不等同于去重后的原始文档数。子集通过 Git LFS 管理,clone 后需执行 git lfs pull。不同来源之间可能存在重复、近重复或解析噪声。时间字段可能表示发布时间、内容时间或抽取时间,需结合具体记录判断。用于训练、分发或商用前,需结合来源信息核验实际授权范围。

展望:从铁矿石到更多行业

CIMD 的发布只是 OpenCSG 垂直行业数据战略的第一步。从数据体系的设计来看,这套方法论具有很强的可复制性和可扩展性。它可以复制到能源行业(石油、天然气、新能源)、化工行业(石化、精细化工)、金融行业(银行、证券、保险)、医疗行业(临床、药品、器械)等领域。同时,这套体系还可以在时间维度上持续更新构建时序数据集,在深度维度上增加更多细分领域和专题,在广度维度上扩展到上下游产业链,在质量维度上引入更精细的质量分层。

OpenCSG 正在探索的,是一条从通用 AI 到行业 AI、从语料库到知识体系、从研究数据集到数据资产的完整路径。

结语:行业 AI 的基础设施,从数据开始

当我们谈论 AI 在产业中的落地时,往往聚焦于模型架构、算法优化、算力投入,却容易忽视一个更基础的问题:行业 AI 需要什么样的数据?

CIMD 给出了一个清晰的答案:行业 AI 需要的不是简单的网络爬虫数据,而是权威来源的专业语料;不是单一类型的文本堆积,而是跨来源整合的知识体系;不是只有正文的纯文本,而是带有完整元数据的数据资产;不是封闭的研究数据集,而是商业友好的开源资源。

OpenCSG 通过 CIMD 的开源,正在做一件具有战略意义的事情:为行业 AI 构建数据基础设施

这不是终点,而是起点。当越来越多的垂直行业拥有像 CIMD 这样的高质量数据集,当数据的组织方式从“文件堆积”升级为“知识体系”,当数据资产的流通从“封闭私有”转向“可信开放”,我们才能真正实现 AI 技术从实验室到产业的跨越。

CIMD 的开源,是行业 AI 从“能说话”到“真懂行”的关键一步。

引用格式

@dataset{opencsg_cimd_2026,
  title        = {CIMD: A Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence},
  author       = {OpenCSG},
  year         = {2026},
  url          = {https://opencsg.com/datasets/OpenCSG/CIMD},
  note         = {OpenCSG dataset repository}
}


社区地址

OpenCSG社区:https://opencsg.com/datasets/OpenCSG/CIMD

魔搭社区https://modelscope.cn/datasets/opencsg/CIMD

Hugging Facehttps://huggingface.co/datasets/opencsg/CIMD


目录
相关文章
|
6天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4252 17
|
16天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11677 138
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1443 8
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
6天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
6天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2413 9

热门文章

最新文章