全球Top下载中文开源数据集更新|OpenCSG持续打造中文高质量数据集开源底座

简介: OpenCSG正式发布Fineweb-Edu-Chinese V2.2数据集:覆盖预训练(1.5T tokens,质量分层)与SFT微调(143.7万条DeepSeek V3.2蒸馏问答对)全流程,严格事实锚定、支持溯源,是当前少有的高质量中文教育全栈数据解决方案。

OpenCSG(开放传神)正式发布 Fineweb-Edu-Chinese V2.2 数据集,这是目前开源界少有的、覆盖从预训练(Pre-train)到监督微调(SFT)全流程的高质量中文教育数据集。

V2.2 版本标志着 Chinese Fineweb Edu 从单一的预训练语料库,进化为覆盖从知识注入到行为对齐全流程的完备数据解决方案。本次更新在 V2.1 海量预训练数据的基础上,利用 DeepSeek V3.2 强大的文本理解能力,从全网最优质的 0.1% 语料中蒸馏出 143.7 万条高质量问答对,为社区提供了一套标准化的后训练(Post-training)数据集。

在预训练数据方面,V2.2 继承了 V2.1 的优势,提供约 1.5T tokens 的高质量教育语料,按照评分等级(4-5 分、3-4 分)进行质量分层存储,支持课程学习策略。数据源整合了 CCI3、MAP-CC、OpenCSG-CC 等多个优质中文语料库,通过 OpenCSG csg-wukong-enterprise V2 评分模型进行严格筛选。

在 SFT 数据方面,V2.2 版本采用“质量至上”策略:只选取评分最高的 Top 0.1% 语料作为种子,利用 DeepSeek V3.2 的阅读理解能力,严格基于原文 Context 生成问答对。不同于自由生成的聊天数据,V2.2 的每一条数据都有确凿的原文依据,有效避免了模型幻觉和事实错误。


版本演进与特性对比

V1.0 - 概念验证

  • 规模:~90M 条目 (300GB)
  • 关键特性与改进:

    初代 BERT 打分模型
    引入MinHash 去重
    数据源:CCI2, SkyPile, Tele-AI


V2.0 - 规模化扩展

  • 规模:~188M 条目 (420B Tokens)
  • 关键特性与改进:

    升级打分器: OpenCSG csg-wukong-enterprise V2
    扩展数据源:Industry2, wanjuan1.0, wudao


V2.1 - 预训练精选

  • 规模:~1.5T Tokens
  • 关键特性与改进:

    质量分层:按分数归档 (4-5分,3-4分)
    新增源:map-cc, opencsg-cc
    支持课程学习


V2.2 - SFT 与对齐

  • 规模:143.7 万条问答对
  • 关键特性与改进:

    DeepSeek V3.2 合成:基于顶级语料生成
    全流程覆盖:提供数据回溯源与纯净微调版
    事实锚定:回答内容严格忠实于原文


Chinese Fineweb Edu Dataset

Chinese Fineweb Edu Dataset 是一个专为中文教育领域大模型开发的高质量数据集系列。在当前的大模型研发中,高质量的中文教育语料依然是稀缺资源。通用语料如 Common Crawl 虽然规模巨大,但包含大量广告、碎片化信息和低质文本,直接用于教育模型训练会导致严重的“幻觉”和逻辑混乱。同时,业界开源的指令微调数据多集中于通用对话或代码能力,极度缺乏经过严谨筛选、具备教学逻辑的垂直领域教育问答数据。这导致许多模型虽然能说话,但无法像老师一样“传道授业”。


V2.2 的里程碑意义

为了解决上述痛点,OpenCSG团队在 V2.1 海量预训练数据的基础上,正式推出了 V2.2 SFT 增强版。不仅提供“燃料”(预训练数据),现在更提供“引擎图纸”(SFT 数据)。通过引入 DeepSeek V3.2 的高阶推理能力,将静态的教科书级文本转化为动态的、具有多轮逻辑的问答对。这标志着 Chinese Fineweb Edu 从单一的语料库,进化为覆盖 Pre-train (知识注入) 到 Post-train (行为对齐) 全流程的完备数据解决方案


为什么需要高质量的 SFT 数据?

后训练是赋予大模型“交互能力”和“领域专精”的关键阶段。高质量的 SFT 数据能激发推理能力——仅靠预训练,模型拥有知识但不懂如何运用。通过精心设计的问答对,模型学会根据上下文进行推导、归纳和演绎。在教育场景下,准确性是红线。通过“基于原文生成”的问答对,强制模型学习“依据事实回答”,而非凭空捏造。DeepSeek V3.2 生成的数据不仅仅是简单的事实核查,更包含了“解释性”和“引导性”,模拟人类教师的思维链条。


从 1.4TB 到 143 万的精炼之路

为了确保 DeepSeek 生成出最优质的问答OpenCSG团队对输入端的“种子数据”进行了极其严苛的筛选。

OpenCSG团队沿用了 V2 版本中训练的高精度教育奖励模型,该模型基于文本的知识密度、逻辑连贯性、学术严谨度进行 0-5 分的打分。在数亿条数据中,直接截取了 Score 排名最高的 0.1%-0.5%数据作为种子,这些数据主要由 STEM 领域的原理详解、人文社科的深度解析、百科知识的概念解释以及教育材料的知识点总结构成。

将以上“金牌种子”输入 DeepSeek V3.2,利用其强大的指令遵循能力,深度阅读原始文本、识别核心考点、构建教学对话。DeepSeek 被特别提示要生成“详尽、有逻辑步骤”的回答,而非简短的 Yes/No。

V2.2 SFT 数据集详情:重塑后训练流程

本部分数据专为指令微调场景打造。

SFT 数据规格

1. Pure QA SFT【微调首选】

数据量:143.7 万条 | 磁盘占用:3.4 GB

仅包含 Instruction 和 Output,格式轻量,专注于让模型学习由 DeepSeek 提炼出的高质量回答范式。

  • 用途:直接用于 LLaMA-Factory 等框架进行 SFT
  • 特点:标准问答对格式,开箱即用


2. Full Context SFT【数据回溯与备份】

数据量:143.7 万条 | 磁盘占用:14.6 GB

包含了 原始种子文本 + Instruction + Output,保留完整上下文信息。

  • 注意:不建议直接用于 SFT 训练(Token 长度过长且包含非对话内容)
  • 用途:仅作为数据溯源使用。当模型表现异常时,可回溯至该文件检查原始知识点是否准确


数据样例与分析

以下是一个真实的数据样例,展示了 DeepSeek V3.2 生成的高质量问答对:

{
  "instruction":"瑞士考古学家费迪南德·克勒是谁?他最著名的考古发现是什么,这对我们理解古代历史有什么帮助?",
  "input":"",
  "output":"费迪南德·克勒(Ferdinand Keller, 1800-1881)是一位瑞士重要考古学家...他最著名的考古发现是1853年在瑞士发现的**湖居遗址**(也称"干栏建筑")...
这一发现对理解古代历史的帮助主要体现在:
1. **生活方式重建**:揭示了公元前5000-500年左右阿尔卑斯地区史前人类的居住形态。
2. **文化遗存**:由于水下环境缺氧,大量有机物(如木材、食物残渣)得以保存,为研究当时的技术水平提供了直接证据..."
}


数据质量分析:

DeepSeek V3.2 在处理此类任务时,展现了极强的信息提取与总结能力。生成的回答不仅包含了事实,还包含了结构化的解释,这是普通短文本 SFT 数据所不具备的。


快速开始

使用 Hugging Face datasets 库即可一键加载数据集:

from datasets import load_dataset
# -------------------------------------------------------
# 场景 A: SFT 指令微调
# -------------------------------------------------------
# 加载纯问答对数据 (3.4GB),格式为标准 instruction/output
ds_sft = load_dataset("OpenCSG/Chinese-Fineweb-Edu-V2.2", split="sft_qa")
# -------------------------------------------------------
# 场景 B: 数据校验与回溯
# -------------------------------------------------------
# 如果需要查看某条问答是基于哪篇原始文章生成的,请加载 sft_context
# 注意:仅用于备份和查阅,不建议直接训练
ds_context = load_dataset("OpenCSG/Chinese-Fineweb-Edu-V2.2", split="sft_context")
# -------------------------------------------------------
# 场景 C: 基座模型预训练
# -------------------------------------------------------
# 加载 Score 4-5 的高质量预训练语料 (Parquet 格式)
ds_pretrain = load_dataset("OpenCSG/Chinese-Fineweb-Edu-V2.2", data_files="pretrain/score_4_5/*.parquet")


使用建议:

  • SFT 微调:推荐使用 sft_qa 分支,配合 LLaMA-Factory、Axolotl 等主流微调框架
  • 预训练:建议采用课程学习策略,先使用 Score 4-5 的高质量数据,再逐步引入 Score 3-4 的数据扩大规模
  • 数据溯源:当模型输出异常时,可通过 sft_context 分支回溯原始知识点,检查数据质量


OpenCSG 全球开源 AI 生态

OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据集体系,已被全球高校、科研机构及科技企业广泛采用,是支撑中文 NLP 研究与大模型产业落地的核心数据基础,从顶尖高校 AI 实验室到企业级生产环境,它持续为大模型预训练、指令微调与领域适配等关键环节提供可靠支撑,推动研究成果向规模化应用高效转化;在学术领域,该数据集已被 100 + 篇论文引用,多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权威期刊,成为验证中文语言模型泛化能力、知识建模效率与跨语言迁移效果的代表性基础资源。


除了 Fineweb-Edu-Chinese 系列,OpenCSG 还发布了 Cosmopedia-Chinese(合成教科书风格数据)和 Smoltalk-Chinese(多样化对话格式数据)等多个高质量中文数据集,构成了完整的 OpenCSG Chinese Corpus 语料体系。这些数据集分别针对预训练、后训练和微调等不同阶段的需求进行了专门设计和优化,为中文大语言模型的全生命周期开发提供了全方位的数据支持。


OpenCSG 通过开源数据、评分模型及完整的数据处理工具链,向社区输出可复用的数据治理方法论,持续降低高质量数据的构建与评估门槛,推动中文 AI 生态从 “模型参数竞争” 转向更加理性、可持续的 “数据基础设施建设” 阶段。


高校与研究机构

斯坦福大学(Stanford)、清华大学(Tsinghua)、中国人民大学高瓴人工智能学院、上海人工智能实验室(Shanghai AI Lab)、北京智源研究院(BAAI)、鹏城实验室、西班牙国家级超算中心(BarcelonaSupercomputingCenter)、Mozilla Data Collective等。


企业应用

英伟达(NVIDIA)、面壁智能(ModelBest)、中国移动、中国联通等。

OpenCSG 坚持“开源即文化”的理念,通过透明、共创、共享的社区文化,与全球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模型还是工具平台,OpenCSG 始终遵循 Apache 2.0 等开源协议,确保技术成果能够被广泛使用和自由创新。这种开放的态度和持续的贡献,使 OpenCSG 成为中文开源 AI 社区的重要推动者和引领者


数据地址

OpenCSG社区:https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2

魔搭社区:https://modelscope.cn/datasets/opencsg/Fineweb-Edu-Chinese-V2.2

Hugging Face:https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2


点击即可跳转数据集链接https://modelscope.cn/datasets/opencsg/Fineweb-Edu-Chinese-V2.2

魔搭社区

目录
相关文章
|
20天前
|
人工智能 自然语言处理 安全
为什么网文平台“允许 AI 润色”以及 AI 润色的技术原理是什么?·卓伊凡
本文解析网文平台“允许AI润色”背后的逻辑:平台反对的是AI替代创作+低质量产,而非作为编辑工具的润色。文章厘清润色与生成的本质区别,详解规则型与大模型润色的技术原理,并强调剧情保留、强度可控、风格可调等关键安全机制。(239字)
376 13
|
20天前
|
机器学习/深度学习 人工智能 资源调度
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。
269 21
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
|
10天前
|
机器学习/深度学习 开发者 内存技术
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
阶跃星辰开源Step 3.5 Flash——迄今最强开源Agent基座模型,含Base/Midtrain权重及Steptron全栈训练框架,支持预训练、SFT与强化学习,专为智能体设计。已登OpenRouter榜首,获社区广泛好评。(239字)
243 22
|
4天前
|
人工智能 弹性计算 自然语言处理
养龙虾迅速走红!OpenClaw部署保姆级教程,两步解锁专属龙虾AI助理!
近日爆火的开源AI智能体OpenClaw(“龙虾”)可真正动手干活:自动处理文件、浏览器操作、写代码、生成报告等。本文提供阿里云一键部署保姆级教程,2步即可拥有专属数字员工,零代码轻松上手!
168 15
|
20天前
|
自然语言处理 测试技术 Python
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
519 6
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
489 4
 蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
|
20天前
|
机器学习/深度学习 存储 自然语言处理
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。
405 4
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
|
14天前
|
机器学习/深度学习 算法 安全
打破真题依赖!微软、清华联合开源 X-Coder:全合成数据激发代码大模型推理潜力
微软与清华联合推出X-Coder系列模型,首创纯合成数据训练范式,在不使用任何真实竞赛题的前提下,仅用7B参数即在LiveCodeBench v5上达62.9%准确率,超越更大规模依赖真实数据的模型。项目已开源模型与数据集。(239字)
144 11
|
13天前
|
机器学习/深度学习 人工智能 文字识别
小红书开源FireRed-OCR,2B 参数登顶文档解析榜单
小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
488 22
|
20天前
|
数据采集 人工智能 数据处理
从0开始全面认识高质量数据集建设(1)
本文聚焦交通行业高质量数据集建设,结合国家最新政策与标准(如《高质量数据集建设指南》等),系统梳理其定义、分类(通识/行业通识/行业专识)、核心特征及与传统数据建设的本质差异。强调“场景驱动、全周期适配AI模型”的建设逻辑,提供从需求调研、数据规划到标注交付的实战路径,助力行业从业者高效构建可直接赋能AI训练与应用的数据基础设施。

热门文章

最新文章