OpenCSG重磅开源｜CIMD开源，打造垂类数据集-阿里云开发者社区

当 Chinese FineWeb 系列数据集在通用中文 AI 领域持续发光发热时，OpenCSG 悄然完成了一次战略转身——从通用语料走向垂直行业，从语言模型基座延伸到产业智能底座。

2026 年 3 月，OpenCSG 正式开源 CIMD（Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence），一个面向铁矿石及矿冶产业链的跨来源文本数据集。这不仅是 OpenCSG 数据战略的重要升级，更是行业 AI 从“能说话”到“真懂行”的关键一步。

为什么是铁矿石？垂直行业 AI 的破局之道

在大模型热潮席卷全球的今天，一个残酷的现实正在浮现：通用大模型虽然能够流畅对话，但面对专业行业问题时往往“隔靴搔痒”。

以铁矿石产业为例，一个看似简单的问题“某地区铁矿石开采是否符合环保政策”，实际上需要同时调用法律法规层面的国家环保法律、地方政策文件和行业管理办法，技术标准层面的采选工艺标准、排放标准和安全生产规范，学术研究层面的矿石品位分析、选矿技术论文和环境影响评估，市场信息层面的产能产量数据、价格走势和企业经营状况，以及舆情观点层面的行业协会报告、券商研究和公众舆情。

传统的单一来源数据库只能回答局部问题——政策库侧重制度依据，论文库侧重技术原理，市场库侧重价格信号。而行业实际问题往往同时依赖法规边界、工艺机理、企业行为和市场环境，需要跨来源的连续证据链。

这正是 CIMD 的核心价值所在：将制度文本、技术文本、研究文本、经营文本和市场文本放入同一数据体系，让 AI 能够像行业专家一样进行“制度依据 + 技术材料 + 市场证据”的联合推理。

CIMD 核心特性：不只是数据堆砌，而是行业知识体系

跨来源整合：打破数据孤岛

CIMD 最大的创新在于跨来源整合。在制度层面，数据集包含 99,496 条法律法规记录，覆盖行业规章与管理办法、政策文件与行业指导。在学术层面，汇集了 28,266 条中文期刊论文、58,221 条国内会议论文、37,961 条博士学位论文，以及来自 International Journal of Mining Science and Technology 和 International Journal of Minerals, Metallurgy and Materials 的 32,215 条国际期刊文献。在产业层面，整合了科研院所报告 5,143 条、行业协会报告 4,664 条、券商与投行研究 2,343 条、企业经营信息 11,656 条、产能产量数据 6,282 条和市场交易数据 1,405 条。此外还纳入了 31,178 条社会公众与自媒体舆情。

这种跨来源结构使得同一主题可以在多种来源之间形成连续证据链，减少跨库拼接带来的语义割裂和上下文缺口。

权威来源支撑：质量与可信度的双重保障

CIMD 汇集的不是随意爬取的网络文本，而是具有代表性的权威文本。来源主体包括国家法律法规、行业标准、学术期刊、科研院所、行业协会和券商机构，专业深度覆盖铁矿石资源、采选加工、烧结球团、炼铁生产等完整产业链。每条记录都保留 source_details 字段，可以回溯到原始来源。这种权威性使得基于 CIMD 训练的模型在专业深度、行业可信度和实际应用价值上具备更高上限。

完整数据体系：不是文件汇总，而是知识图谱

CIMD 的数据组织不是简单的文件堆积，而是围绕铁矿石及矿冶产业链建立的完整行业数据体系。整个体系包含 9 个一级分类、42 个二级分类和 335 个三级/四级来源节点，覆盖法律文件与法规依据、行业规章与管理办法、政策文件与行业指导、行业标准、专利与知识产权、学术与培训资料、互联网舆情与观点分析、企业经营与运营信息、行业研究与市场报告等核心门类。这种体系化组织为专题扩展、增量采集、行业补数、基准任务设计和数据资产编目提供了结构框架。

元数据完整：从“能用”到“好用”的关键

CIMD 在每条记录中保留了丰富的元数据字段，包括 file_id、data_id、title、source_type、author、original_time、content_time、language、keywords、license_type 和 source_details。使用者可以按来源筛选只使用法律法规或只使用学术论文，按时间过滤获取特定时间段的政策变化，按语言分类进行中英文分离或混合使用，还可以将检索到的文本片段回溯到原始文件。对于长文档检索、来源归因、审计留痕、授权控制、质量抽检和数据资产管理，这类记录级元数据比单纯正文更有操作价值。

数据规模：38 万+记录，覆盖完整产业链

项目	数值
有效 JSONL 记录	382,425 条
去重文件数	57,622 个
子集数量	11 个
来源类型	52 种
数据体系层级	9 个一级分类，42 个二级分类，335 个三级/四级节点

从语言分布来看，中文记录占 60.7%（232,169 条），英文记录占 30.1%（115,113 条），其他语言占 9.2%（35,143 条）。从来源类型来看，期刊论文最多达 116,926 条，其次是国家法律法规 95,394 条、学术出版物 57,492 条、学位论文 38,075 条、社会公众与自媒体舆情 31,178 条、企业基本信息 11,656 条、产能与产量数据 6,282 条、科研院所报告 5,143 条、行业协会报告 4,664 条和国内产业政策 2,393 条。

技术亮点：对标国家数据标准，面向可信流通

CIMD 的数据组织方式与国家数据局和全国数据标准化技术委员会发布的《高质量数据集建设指南》《高质量数据集格式要求》《高质量数据集分类指南》《高质量数据集质量评测规范》以及《国家数据基础设施建设指引》等系列标准保持同向。数据集将标识、来源、分类、时间、授权和来源说明直接放在记录体内，而不是外部台账，使得同一份快照可以直接进入数据目录编制、质量抽检、授权审计、责任追踪和可信流通流程，不需要在语料之外再补一套独立的元数据体系。这种设计使得 CIMD 不仅是一个研究数据集，更是一个符合国家数据基础设施建设方向的行业数据资产。

应用场景：从检索到 Agent 的全链路支撑

CIMD 的设计目标是直接可用于模型与应用，当前公开版本以统一 JSONL 格式发布，可直接进入：

场景一：垂直领域 RAG 系统

以铁矿石产业智能问答助手为例，当用户询问“2024 年铁矿石进口政策有哪些变化”时，系统可以沿着法律法规库、政策文件库、行业研究库到市场数据库的检索路径，基于跨来源证据链生成完整答案并标注来源。统一的 JSONL 格式可以直接接入向量数据库，完整的元数据支持精确过滤和来源归因，跨来源结构天然适配多跳推理。

场景二：行业 Agent 工作流

在矿企合规审查 Agent 的应用中，系统需要评估某矿企的环保合规性。完整的工作流包括检索相关法律法规和政策文件、查询企业经营信息和产能数据、对比行业标准和技术规范、分析舆情和行业研究报告，最终生成合规评估报告。完整的数据体系可以支撑这种复杂推理链，权威来源保证结论可信度，元数据则支持审计和责任追溯。

场景三：领域继续预训练与 SFT

在构建铁矿石产业垂直大模型时，预训练阶段可以使用全量 38 万+记录进行领域知识注入，SFT 阶段基于法规问答、技术问答、市场分析等构建指令数据，评测阶段则使用 CIMD 构建行业基准测试集。中英文混合语料提升多语言能力，跨来源结构增强知识融合能力，完整元数据支持数据筛选和质量控制。

场景四：文档智能与知识抽取

在产业知识图谱构建中，CIMD 可以支持矿企名称、矿区地点、技术术语等实体识别，企业-产能、政策-影响、技术-应用等关系抽取，以及政策发布、产能变化、市场波动等事件抽取。52 种来源类型覆盖完整产业链，丰富的关键词字段辅助标注，时间字段则支持时序分析。

从 Chinese FineWeb 到 CIMD: OpenCSG 的数据战略演进

如果我们回顾 OpenCSG 的数据开源历程，会发现一条清晰的战略演进路径：

第一阶段：通用中文语料（Chinese FineWeb 系列）

这一阶段的目标是为中文大模型提供高质量预训练语料。Chinese FineWeb 被清华大学论文选为 L1 层基础数据，支撑了 CMU H-Net、MiniCPM4 等多个前沿模型，成为中文 AI 研发的必备资源。这一阶段的特点是通用、大规模、高质量。

第二阶段：垂直行业语料（CIMD）

这一阶段的目标是为行业 AI 提供专业知识底座。CIMD 实现了从通用走向垂直、从单一来源走向跨来源整合、从语料库走向知识体系、从研究数据集走向数据资产的创新。这一阶段的特点是专业、权威、体系化、可信。

这种演进反映了 OpenCSG 对 AI 发展趋势的深刻洞察：通用大模型是基础，垂直行业 AI 是未来。

开源承诺：商业友好，推动产业智能化

CIMD 采用 OpenCSG 数据集许可协议（OpenCSG Dataset License Agreement）。在 Hugging Face 和 OpenCSG 平台的仓库 metadata 中，license 字段标注为 other，表示本数据集采用平台预设列表之外的自定义许可协议；数据集的实际许可条款以 OpenCSG 数据集许可协议为准。

该协议明确支持商业用途。使用者可以将数据集用于研究、评测、验证、内部开发、模型训练、模型微调、检索增强、质量分析和合规审查等场景。如果计划将本数据集、基于本数据集训练或增强的模型、系统、Agent、API 服务或商业产品用于商业场景，需要遵循该协议的相关条款。OpenCSG 的开源核心理念：既要保护数据来源方的合法权益和知识产权，又要为行业 AI 发展提供必要的数据支撑。通过清晰的授权边界、完善的合规要求和灵活的商业许可机制，CIMD 为企业合规使用行业数据、构建垂直 AI 能力提供了可信路径。

数据获取与使用指南

通过 Git 获取（推荐）

git lfs install 
git clone https://opencsg.com/datasets/OpenCSG/CIMD.git 
cd CIMD 
git lfs pull

使用 ModelScope datasets

from modelscope.msdatasets import MsDataset 
 
dataset = MsDataset.load( 
    dataset_name="CIMD", 
    namespace="opencsg",
    subset_name="state_laws",
    split="train", 
)

11 个子集说明

子集名称	记录数	文件数	内容
state_laws	99,496	7,300	法律法规、规章制度、政策文本
domestic_conference_papers	58,221	18,826	国内会议论文与会议资料
doctoral_dissertations	37,961	804	博士学位论文
public_opinion	30,705	9,427	舆情与观点资料
chinese_journals	28,266	6,412	中文期刊论文
international_journal_of_mining_science_and_technology	16,824	2,435	英文学术期刊
international_journal_of_minerals_metallurgy_and_materials	15,391	2,461	英文学术期刊
industry_research_reports	14,319	1,182	行业研究、券商、企业与产能相关材料
sintering_and_pelletizing	9,558	3,783	烧结球团专题资料
ironmaking	8,002	3,871	炼铁与生产专题资料
books	63,682	1,121	图书资料

使用注意事项

当前统计为解析记录数，不等同于去重后的原始文档数。子集通过 Git LFS 管理，clone 后需执行 git lfs pull。不同来源之间可能存在重复、近重复或解析噪声。时间字段可能表示发布时间、内容时间或抽取时间，需结合具体记录判断。用于训练、分发或商用前，需结合来源信息核验实际授权范围。

展望：从铁矿石到更多行业

CIMD 的发布只是 OpenCSG 垂直行业数据战略的第一步。从数据体系的设计来看，这套方法论具有很强的可复制性和可扩展性。它可以复制到能源行业（石油、天然气、新能源）、化工行业（石化、精细化工）、金融行业（银行、证券、保险）、医疗行业（临床、药品、器械）等领域。同时，这套体系还可以在时间维度上持续更新构建时序数据集，在深度维度上增加更多细分领域和专题，在广度维度上扩展到上下游产业链，在质量维度上引入更精细的质量分层。

OpenCSG 正在探索的，是一条从通用 AI 到行业 AI、从语料库到知识体系、从研究数据集到数据资产的完整路径。

结语：行业 AI 的基础设施，从数据开始

当我们谈论 AI 在产业中的落地时，往往聚焦于模型架构、算法优化、算力投入，却容易忽视一个更基础的问题：行业 AI 需要什么样的数据？

CIMD 给出了一个清晰的答案：行业 AI 需要的不是简单的网络爬虫数据，而是权威来源的专业语料；不是单一类型的文本堆积，而是跨来源整合的知识体系；不是只有正文的纯文本，而是带有完整元数据的数据资产；不是封闭的研究数据集，而是商业友好的开源资源。

OpenCSG 通过 CIMD 的开源，正在做一件具有战略意义的事情：为行业 AI 构建数据基础设施。

这不是终点，而是起点。当越来越多的垂直行业拥有像 CIMD 这样的高质量数据集，当数据的组织方式从“文件堆积”升级为“知识体系”，当数据资产的流通从“封闭私有”转向“可信开放”，我们才能真正实现 AI 技术从实验室到产业的跨越。

CIMD 的开源，是行业 AI 从“能说话”到“真懂行”的关键一步。

引用格式：

@dataset{opencsg_cimd_2026,
  title        = {CIMD: A Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence},
  author       = {OpenCSG},
  year         = {2026},
  url          = {https://opencsg.com/datasets/OpenCSG/CIMD},
  note         = {OpenCSG dataset repository}
}

社区地址

OpenCSG社区：https://opencsg.com/datasets/OpenCSG/CIMD

魔搭社区：https://modelscope.cn/datasets/opencsg/CIMD

Hugging Face：https://huggingface.co/datasets/opencsg/CIMD

OpenCSG重磅开源｜CIMD开源，打造垂类数据集