当 Chinese FineWeb 系列数据集在通用中文 AI 领域持续发光发热时,OpenCSG 悄然完成了一次战略转身——从通用语料走向垂直行业,从语言模型基座延伸到产业智能底座。
2026 年 3 月,OpenCSG 正式开源 CIMD(Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence),一个面向铁矿石及矿冶产业链的跨来源文本数据集。这不仅是 OpenCSG 数据战略的重要升级,更是行业 AI 从“能说话”到“真懂行”的关键一步。
为什么是铁矿石?垂直行业 AI 的破局之道
在大模型热潮席卷全球的今天,一个残酷的现实正在浮现:通用大模型虽然能够流畅对话,但面对专业行业问题时往往“隔靴搔痒”。
以铁矿石产业为例,一个看似简单的问题“某地区铁矿石开采是否符合环保政策”,实际上需要同时调用法律法规层面的国家环保法律、地方政策文件和行业管理办法,技术标准层面的采选工艺标准、排放标准和安全生产规范,学术研究层面的矿石品位分析、选矿技术论文和环境影响评估,市场信息层面的产能产量数据、价格走势和企业经营状况,以及舆情观点层面的行业协会报告、券商研究和公众舆情。
传统的单一来源数据库只能回答局部问题——政策库侧重制度依据,论文库侧重技术原理,市场库侧重价格信号。而行业实际问题往往同时依赖法规边界、工艺机理、企业行为和市场环境,需要跨来源的连续证据链。
这正是 CIMD 的核心价值所在:将制度文本、技术文本、研究文本、经营文本和市场文本放入同一数据体系,让 AI 能够像行业专家一样进行“制度依据 + 技术材料 + 市场证据”的联合推理。
CIMD 核心特性:不只是数据堆砌,而是行业知识体系
跨来源整合:打破数据孤岛
CIMD 最大的创新在于跨来源整合。在制度层面,数据集包含 99,496 条法律法规记录,覆盖行业规章与管理办法、政策文件与行业指导。在学术层面,汇集了 28,266 条中文期刊论文、58,221 条国内会议论文、37,961 条博士学位论文,以及来自 International Journal of Mining Science and Technology 和 International Journal of Minerals, Metallurgy and Materials 的 32,215 条国际期刊文献。在产业层面,整合了科研院所报告 5,143 条、行业协会报告 4,664 条、券商与投行研究 2,343 条、企业经营信息 11,656 条、产能产量数据 6,282 条和市场交易数据 1,405 条。此外还纳入了 31,178 条社会公众与自媒体舆情。
这种跨来源结构使得同一主题可以在多种来源之间形成连续证据链,减少跨库拼接带来的语义割裂和上下文缺口。
权威来源支撑:质量与可信度的双重保障
CIMD 汇集的不是随意爬取的网络文本,而是具有代表性的权威文本。来源主体包括国家法律法规、行业标准、学术期刊、科研院所、行业协会和券商机构,专业深度覆盖铁矿石资源、采选加工、烧结球团、炼铁生产等完整产业链。每条记录都保留 source_details 字段,可以回溯到原始来源。这种权威性使得基于 CIMD 训练的模型在专业深度、行业可信度和实际应用价值上具备更高上限。
完整数据体系:不是文件汇总,而是知识图谱
CIMD 的数据组织不是简单的文件堆积,而是围绕铁矿石及矿冶产业链建立的完整行业数据体系。整个体系包含 9 个一级分类、42 个二级分类和 335 个三级/四级来源节点,覆盖法律文件与法规依据、行业规章与管理办法、政策文件与行业指导、行业标准、专利与知识产权、学术与培训资料、互联网舆情与观点分析、企业经营与运营信息、行业研究与市场报告等核心门类。这种体系化组织为专题扩展、增量采集、行业补数、基准任务设计和数据资产编目提供了结构框架。
元数据完整:从“能用”到“好用”的关键
CIMD 在每条记录中保留了丰富的元数据字段,包括 file_id、data_id、title、source_type、author、original_time、content_time、language、keywords、license_type 和 source_details。使用者可以按来源筛选只使用法律法规或只使用学术论文,按时间过滤获取特定时间段的政策变化,按语言分类进行中英文分离或混合使用,还可以将检索到的文本片段回溯到原始文件。对于长文档检索、来源归因、审计留痕、授权控制、质量抽检和数据资产管理,这类记录级元数据比单纯正文更有操作价值。
数据规模:38 万+记录,覆盖完整产业链
| 项目 | 数值 |
| 有效 JSONL 记录 | 382,425 条 |
| 去重文件数 | 57,622 个 |
| 子集数量 | 11 个 |
| 来源类型 | 52 种 |
| 数据体系层级 | 9 个一级分类,42 个二级分类,335 个三级/四级节点 |
从语言分布来看,中文记录占 60.7%(232,169 条),英文记录占 30.1%(115,113 条),其他语言占 9.2%(35,143 条)。从来源类型来看,期刊论文最多达 116,926 条,其次是国家法律法规 95,394 条、学术出版物 57,492 条、学位论文 38,075 条、社会公众与自媒体舆情 31,178 条、企业基本信息 11,656 条、产能与产量数据 6,282 条、科研院所报告 5,143 条、行业协会报告 4,664 条和国内产业政策 2,393 条。
技术亮点:对标国家数据标准,面向可信流通
CIMD 的数据组织方式与国家数据局和全国数据标准化技术委员会发布的《高质量数据集 建设指南》《高质量数据集 格式要求》《高质量数据集 分类指南》《高质量数据集 质量评测规范》以及《国家数据基础设施建设指引》等系列标准保持同向。数据集将标识、来源、分类、时间、授权和来源说明直接放在记录体内,而不是外部台账,使得同一份快照可以直接进入数据目录编制、质量抽检、授权审计、责任追踪和可信流通流程,不需要在语料之外再补一套独立的元数据体系。这种设计使得 CIMD 不仅是一个研究数据集,更是一个符合国家数据基础设施建设方向的行业数据资产。
应用场景:从检索到 Agent 的全链路支撑
CIMD 的设计目标是直接可用于模型与应用,当前公开版本以统一 JSONL 格式发布,可直接进入:
场景一:垂直领域 RAG 系统
以铁矿石产业智能问答助手为例,当用户询问“2024 年铁矿石进口政策有哪些变化”时,系统可以沿着法律法规库、政策文件库、行业研究库到市场数据库的检索路径,基于跨来源证据链生成完整答案并标注来源。统一的 JSONL 格式可以直接接入向量数据库,完整的元数据支持精确过滤和来源归因,跨来源结构天然适配多跳推理。
场景二:行业 Agent 工作流
在矿企合规审查 Agent 的应用中,系统需要评估某矿企的环保合规性。完整的工作流包括检索相关法律法规和政策文件、查询企业经营信息和产能数据、对比行业标准和技术规范、分析舆情和行业研究报告,最终生成合规评估报告。完整的数据体系可以支撑这种复杂推理链,权威来源保证结论可信度,元数据则支持审计和责任追溯。
场景三:领域继续预训练与 SFT
在构建铁矿石产业垂直大模型时,预训练阶段可以使用全量 38 万+记录进行领域知识注入,SFT 阶段基于法规问答、技术问答、市场分析等构建指令数据,评测阶段则使用 CIMD 构建行业基准测试集。中英文混合语料提升多语言能力,跨来源结构增强知识融合能力,完整元数据支持数据筛选和质量控制。
场景四:文档智能与知识抽取
在产业知识图谱构建中,CIMD 可以支持矿企名称、矿区地点、技术术语等实体识别,企业-产能、政策-影响、技术-应用等关系抽取,以及政策发布、产能变化、市场波动等事件抽取。52 种来源类型覆盖完整产业链,丰富的关键词字段辅助标注,时间字段则支持时序分析。
从 Chinese FineWeb 到 CIMD: OpenCSG 的数据战略演进
如果我们回顾 OpenCSG 的数据开源历程,会发现一条清晰的战略演进路径:
第一阶段:通用中文语料(Chinese FineWeb 系列)
这一阶段的目标是为中文大模型提供高质量预训练语料。Chinese FineWeb 被清华大学论文选为 L1 层基础数据,支撑了 CMU H-Net、MiniCPM4 等多个前沿模型,成为中文 AI 研发的必备资源。这一阶段的特点是通用、大规模、高质量。
第二阶段:垂直行业语料(CIMD)
这一阶段的目标是为行业 AI 提供专业知识底座。CIMD 实现了从通用走向垂直、从单一来源走向跨来源整合、从语料库走向知识体系、从研究数据集走向数据资产的创新。这一阶段的特点是专业、权威、体系化、可信。
这种演进反映了 OpenCSG 对 AI 发展趋势的深刻洞察:通用大模型是基础,垂直行业 AI 是未来。
开源承诺:商业友好,推动产业智能化
CIMD 采用 OpenCSG 数据集许可协议(OpenCSG Dataset License Agreement)。在 Hugging Face 和 OpenCSG 平台的仓库 metadata 中,license 字段标注为 other,表示本数据集采用平台预设列表之外的自定义许可协议;数据集的实际许可条款以 OpenCSG 数据集许可协议为准。
该协议明确支持商业用途。使用者可以将数据集用于研究、评测、验证、内部开发、模型训练、模型微调、检索增强、质量分析和合规审查等场景。如果计划将本数据集、基于本数据集训练或增强的模型、系统、Agent、API 服务或商业产品用于商业场景,需要遵循该协议的相关条款。OpenCSG 的开源核心理念:既要保护数据来源方的合法权益和知识产权,又要为行业 AI 发展提供必要的数据支撑。通过清晰的授权边界、完善的合规要求和灵活的商业许可机制,CIMD 为企业合规使用行业数据、构建垂直 AI 能力提供了可信路径。
数据获取与使用指南
通过 Git 获取(推荐)
git lfs install git clone https://opencsg.com/datasets/OpenCSG/CIMD.git cd CIMD git lfs pull
使用 ModelScope datasets
from modelscope.msdatasets import MsDataset dataset = MsDataset.load( dataset_name="CIMD", namespace="opencsg", subset_name="state_laws", split="train", )
11 个子集说明
| 子集名称 | 记录数 | 文件数 | 内容 |
| state_laws | 99,496 | 7,300 | 法律法规、规章制度、政策文本 |
| domestic_conference_papers | 58,221 | 18,826 | 国内会议论文与会议资料 |
| doctoral_dissertations | 37,961 | 804 | 博士学位论文 |
| public_opinion | 30,705 | 9,427 | 舆情与观点资料 |
| chinese_journals | 28,266 | 6,412 | 中文期刊论文 |
| international_journal_of_mining_science_and_technology | 16,824 | 2,435 | 英文学术期刊 |
| international_journal_of_minerals_metallurgy_and_materials | 15,391 | 2,461 | 英文学术期刊 |
| industry_research_reports | 14,319 | 1,182 | 行业研究、券商、企业与产能相关材料 |
| sintering_and_pelletizing | 9,558 | 3,783 | 烧结球团专题资料 |
| ironmaking | 8,002 | 3,871 | 炼铁与生产专题资料 |
| books | 63,682 | 1,121 | 图书资料 |
使用注意事项
当前统计为解析记录数,不等同于去重后的原始文档数。子集通过 Git LFS 管理,clone 后需执行 git lfs pull。不同来源之间可能存在重复、近重复或解析噪声。时间字段可能表示发布时间、内容时间或抽取时间,需结合具体记录判断。用于训练、分发或商用前,需结合来源信息核验实际授权范围。
展望:从铁矿石到更多行业
CIMD 的发布只是 OpenCSG 垂直行业数据战略的第一步。从数据体系的设计来看,这套方法论具有很强的可复制性和可扩展性。它可以复制到能源行业(石油、天然气、新能源)、化工行业(石化、精细化工)、金融行业(银行、证券、保险)、医疗行业(临床、药品、器械)等领域。同时,这套体系还可以在时间维度上持续更新构建时序数据集,在深度维度上增加更多细分领域和专题,在广度维度上扩展到上下游产业链,在质量维度上引入更精细的质量分层。
OpenCSG 正在探索的,是一条从通用 AI 到行业 AI、从语料库到知识体系、从研究数据集到数据资产的完整路径。
结语:行业 AI 的基础设施,从数据开始
当我们谈论 AI 在产业中的落地时,往往聚焦于模型架构、算法优化、算力投入,却容易忽视一个更基础的问题:行业 AI 需要什么样的数据?
CIMD 给出了一个清晰的答案:行业 AI 需要的不是简单的网络爬虫数据,而是权威来源的专业语料;不是单一类型的文本堆积,而是跨来源整合的知识体系;不是只有正文的纯文本,而是带有完整元数据的数据资产;不是封闭的研究数据集,而是商业友好的开源资源。
OpenCSG 通过 CIMD 的开源,正在做一件具有战略意义的事情:为行业 AI 构建数据基础设施。
这不是终点,而是起点。当越来越多的垂直行业拥有像 CIMD 这样的高质量数据集,当数据的组织方式从“文件堆积”升级为“知识体系”,当数据资产的流通从“封闭私有”转向“可信开放”,我们才能真正实现 AI 技术从实验室到产业的跨越。
CIMD 的开源,是行业 AI 从“能说话”到“真懂行”的关键一步。
引用格式:
@dataset{opencsg_cimd_2026, title = {CIMD: A Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy, Policy, and Market Intelligence}, author = {OpenCSG}, year = {2026}, url = {https://opencsg.com/datasets/OpenCSG/CIMD}, note = {OpenCSG dataset repository} }
社区地址
OpenCSG社区:https://opencsg.com/datasets/OpenCSG/CIMD
魔搭社区:https://modelscope.cn/datasets/opencsg/CIMD
Hugging Face:https://huggingface.co/datasets/opencsg/CIMD