OpenCSG中文数据集助推CMU无分词器模型登顶SOTA

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 语言模型正迎来划时代的技术跃迁!传统Transformer架构依赖分词器(tokenizer)的范式即将被颠覆,一种全新的端到端建模方式正在崛起。

 语言模型正迎来划时代的技术跃迁!传统Transformer架构依赖分词器(tokenizer)的范式即将被颠覆,一种全新的端到端建模方式正在崛起。

近期,Mamba 的作者之一 Albert Gu 在发表最新研究《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》中提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。通过创新的动态分块技术和分层网络架构(H-Net),AI模型首次实现了从原始字节到语义理解的完整闭环。

这项突破性技术展现出三大革命性特征:

  1. 架构革新:H-Net通过动态学习数据分块策略,摒弃了传统分词流程,构建了首个真正意义上的端到端语言模型;
  2. 性能飞跃:在同等计算资源下,字节级H-Net不仅超越传统分词模型,其多层抽象架构更展现出指数级的数据效率提升;
  3. 跨域优势:对中文等非空格语言的处理能力实现质的突破,数据效率最高提升4倍。

特别值得关注的是,这项技术在处理复杂语言场景时展现出惊人潜力:

  • 中文理解:原生支持汉字字节流处理,避免传统分词导致的语义割裂
  • 代码生成:直接学习编程语言的底层结构模式
  • 生物序列:对DNA等非自然语言实现高效建模

这不仅是技术架构的升级,更代表着AI对人类语言的认知方式发生了根本性转变。随着无分词架构的成熟,我们正见证大模型技术从"模拟理解"迈向"本质理解"的关键转折。下一代语言模型的竞赛,已经在新赛道上悄然展开!

01.OpenCSG中文数据集

在最新一代HNet无分词器大模型的训练过程中,研究团队采用了OpenCSG最新发布的FineWeb-Edu Chinese V2.1高质量中文教育数据集。这一专为教育领域定制的中文预训练语料库包含188M条经过严格筛选的文本(约420B tokens),通过新一代csg-wukong-enterprise V2评分模型进行质量把控,确保了数据的高质量和教育相关性。

FineWeb-Edu Chinese V2.1数据集:

https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu-v2

Chinese Fineweb Edu v2 在数据来源方面进行了显著扩展,整合了多个领域的高质量数据集。相较于初代版本,新增了Industry2、CCI3、MiChao、WanJuan1.0、WuDao和ChineseWebText等优质数据源。

这种多元化的数据整合策略使Chinese Fineweb Edu v2具备了更全面的知识覆盖和更强的领域适应性,能够更好地支持教育领域各类NLP任务的训练需求。通过精心设计的融合方案,确保了不同来源数据在风格和质量上的一致性,为构建高性能教育大模型奠定了坚实基础。

 

image.gif 编辑

作为教育NLP任务的新标杆,该数据集具有以下显著优势:

  1. 规模与质量的双重突破

数据总量达188M条精选文本(约420B tokens)

采用csg-wukong-enterprise V2评分模型进行严格筛选

包含25%中英对照数据,增强跨语言理解能力

设置3分以上的质量阈值,保证教育内容的专业性

  1. 多源数据的深度整合

融合Industry2、CCI3等六大优质数据源

涵盖工业、科技、文化等多个专业领域

包含专业文献、技术文档等多样化内容形式

通过创新融合方案确保数据一致性

  1. 教育场景的专项优化

重构Prompt设计框架以强化教育语义理解

建立多维评估体系(相关性、完整性等指标)

特别适配试题解析、知识点归纳等教育任务

在C-Eval评测中表现优异

该数据集已在全球范围内确立行业标杆地位,作为下载量TOP3的中文预训练数据集,其影响力体现在多个维度:在学术领域,获得Stanford、Tsinghua、中国人民大学高瓴人工智能学院、上海人工智能实验室(Shanghai AI Lab)、北京智源研究院(BAAI)等20余家顶尖机构的论文引用和实际应用;在产业界,支撑了Llama3-Chinese、DeepSeek等知名模型的训练,并被面壁智能(ModelBest)、中国移动、中国联通、英伟达(NVIDIA)等领军企业采用。

数据集已形成规模化的生态影响力:月下载量突破万次,日均处理数千次请求;数据体量达2.42TB,覆盖9.57亿条高质量文本;通过集成13项细分数据集,构建了完整的中文训练套件。其衍生价值尤为突出:已孵化出10余个垂直领域微调模型(涵盖医疗/法律/金融等方向),并催生30多个GitHub开源项目(包括数据清洗工具、评估框架等)。

这一高质量中文训练数据集不仅被收录进权威数据库,更通过其严格的质量标准、专业的教育优化和广泛的应用适配性,持续推动着教育NLP开源生态的发展,为AI技术在教育领域的深度应用提供了坚实基础。随着OpenCSG计划开源评分模型和标注数据,其影响力将进一步扩大,为中文大模型的发展注入新的动力。

02.大模型分词器的不足

传统分词方法(如BPE等)存在以下主要不足:

1.语义理解局限

  • 固定词汇表导致语义单元被强制拆分(如将"product"拆分为"pro-"和"-duct")
  • 无法动态适应不同语境下的语义边界

H-Net能动态适应不同语境下的语义边界,完全摒弃预定义词表限制,支持任意长度的语义组合。有效避免传统方法强制拆分语义单元的问题同时能保持词语、短语等语言结构的自然完整性,克服了BPE等传统分词方法的不足,下图为效果示意图:

 

image.gif 编辑

2.跨语言适应性差

  • 对中文等无空格语言效果不佳
  • 非拉丁语系语言需要特殊处理规则
  • DNA序列等非自然语言场景表现更差

在XWinograd-zh评测中传统分词方法59.9分 vs H-Net 66.3分:

 

image.gif 编辑

 

image.gif 编辑

DNA序列数据上效率比H-Net低3.6倍:

 

image.gif 编辑

 

image.gif 编辑

3.鲁棒性缺陷

对字符级扰动敏感(如大小写变化、空格删除)

下图为H-Net(第一阶段)动态绘制的边界位置可视化。给定的文本经过扰动处理,部分空白字符被删除。即使单词边界未被明确空格分隔,H-Net仍能准确检测到词边界,而BPE传统分词方法必须依赖明确边界字符进行有效分词。

 




  • image.gif 编辑

 

在HellaSwag噪声测试中,传统分词模型准确率比字节级模型低15-20%




  • image.gif 编辑

03.无分词器模型结构H-net 突破传统大模型架构

动态分块机制(Dynamic Chunking, DC)

DC是H-Net的核心组件,通过可学习的路由模块(Routing Module)和平滑模块(Smoothing Module)实现数据依赖的分块策略。路由模块基于相邻向量的余弦相似度预测边界概率,而平滑模块通过指数移动平均(EMA)将离散分块操作转化为可微分计算,解决了梯度传播难题。两者结合使模型能动态压缩输入序列,同时保留语义关键位置。

H-Net通过动态分块机制实现了语义边界的智能自适应,其核心优势体现在:

1.上下文感知的动态分块

  • 采用路由模块实时计算边界概率,根据相邻向量的相似度动态划分语义单元
  • 语义单元长度随内容复杂度灵活变化,避免固定切分

 

image.gif 编辑

2.无词汇表约束的架构设计

  • 完全摒弃预定义词表限制,支持任意长度的语义组合
  • 通过端到端训练自动学习最优分块策略

3.语义完整性保护避免

  • 传统方法强制拆分语义单元的问题
  • 保持词语、短语等语言结构的自然完整性

DC完全取代了传统BPE分词器等预处理步骤,使模型能够直接从原始数据(如字节)中学习最优的分块策略。这不仅避免了分词器带来的词汇表偏差和语言限制,还能适应多种模态(如中文、代码、DNA序列)。

分层递归架构(Hierarchical H-Net)

 

image.gif 编辑

H-Net采用类似U-Net的分层设计,包含编码器(E)、主网络(M)和解码器(D)。其独特之处在于主网络可递归嵌套为另一H-Net,形成多级抽象层次。例如,2阶段H-Net先压缩字节为“词级”块,再进一步压缩为“句级”块,显著提升计算效率和语义建模能力。

信号传播优化技术

论文提出多项稳定训练的改进:

  • Norm Balance:在网络末端添加RMSNorm,平衡残差连接与主路径的梯度贡献。
  • 双流分离:编码器输出分别用于残差连接和主网络输入,通过独立投影保留梯度完整性。
  • 比率损失(Ratio Loss):类似MoE的负载均衡机制,通过调节边界概率均值(G)与实际压缩率(F)的差异,控制目标压缩比(如N=6)。

动态分块机制通过可学习的分块策略、多级抽象和自适应计算分配,不仅解决了传统分词的局限性,还显著提升了模型的效率、性能和泛化能力。

04.从社区到产业:OpenCSG打造AI模型新基础设施

在这场无分词架构技术革命的背后,国产开源生态的推动力不可忽视。以 OpenCSG 社区为代表的国产 AI 社区,正成为大模型时代关键的基础设施提供者与技术创新策源地。

OpenCSG(https://opencsg.com)是一个全球领先的开源大模型生态社区,致力于构建开放、协同、可持续的 AI 开发者生态系统。其背后的核心平台 CSGHub提供强大的大模型资产管理能力,为模型训练和部署提供从模型、数据集、代码到 AI 应用的 一站式托管、协作与共享服务。

截至目前,OpenCSG 社区已汇聚超过 10 万个高质量开源 AI 模型,覆盖 NLP、CV、语音、多模态等多个核心方向,为研究机构、企业用户和开发者提供了坚实的数据与算力支持。

在本次 H-Net 训练过程中,研究团队正是依托 OpenCSG 最新发布的 Chinese FineWeb Edu V2.1 数据集完成关键预训练阶段,并借助 CSGHub 实现了高效的数据管理与模型迭代。这一协同体系不仅加速了模型开发流程,也凸显了国产开源平台在大模型训练范式变革中的基础设施价值。

OpenCSG正在推动形成具有中国特色的 开源大模型生态闭环,不仅赋能科研机构与企业创新,也让中国 AI 开发者在全球模型生态中拥有更多自主性与话语权。

05.参考

FineWeb-Edu Chinese V2.1数据集获取途径

1.魔搭社区开源:

https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu-v2

2.OpenCSG社区开源:

https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu-v2

H-Net论文链接

Github:https://goombalab.github.io/blog/2025/hnet-past/

arxiv:https://arxiv.org/abs/2507.07955v1

 

点击链接,即可跳转数据集链接~

https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu-v2

目录
相关文章
|
3月前
送福利!FlowBench客户端首批内测邀请函
魔搭AIGC搭子们,集合啦!ModelScope x FlowBench 团队
157 3
|
机器学习/深度学习 算法
【基础回顾】在回归任务中常见的损失函数比较(mse、mae、huber)
【基础回顾】在回归任务中常见的损失函数比较(mse、mae、huber)
1545 0
【基础回顾】在回归任务中常见的损失函数比较(mse、mae、huber)
|
存储 缓存 NoSQL
Redis的主要用途是什么?
【4月更文挑战第2天】Redis是多功能工具,常用于缓存加速、轻量级数据库、消息代理(发布/订阅)、分布式锁、计数器、数据结构算法实现、实时系统支撑及限流控制。其丰富的数据类型和高效操作支持多种应用场景,提升系统性能。
673 2
|
3月前
|
人工智能 自然语言处理 供应链
AI如何帮助中小企业进行赋能?
人工智能(AI)正加速赋能中小企业,在营销、生产、客服等领域助力转型升级。通过精准营销、智能运营与高效服务,企业可显著提升效率与竞争力。尽管面临技术门槛、数据安全与人才短缺等挑战,借助云服务、政策扶持与人才培养,中小企业仍能把握机遇,实现可持续发展。
286 0
|
SQL 缓存 分布式计算
阿里云连续五年入选Gartner®分析和商业智能平台魔力象限,中国唯一
Gartner® 正式发布《分析与商业智能平台魔力象限》报告(Magic Quadrant™ for Analytics and Business Intelligence Platforms),阿里云成为唯一入围该报告的中国厂商,被评为“挑战者”(Challengers)。这也是阿里云连续五年入选该报告。
|
4月前
|
数据库 对象存储
2025年 | 6月云大使推广奖励规则
云大使618活动上线。推荐首购达标,激励层层加码;月度消费达标,冲刺赢惊喜。最高可获得9万奖励;
|
机器学习/深度学习 人工智能 自然语言处理
PGL图学习之图神经网络GNN模型GCN、GAT[系列六]
本次项目讲解了图神经网络的原理并对GCN、GAT实现方式进行讲解,最后基于PGL实现了两个算法在数据集Cora、Pubmed、Citeseer的表现,在引文网络基准测试中达到了与论文同等水平的指标。 目前的数据集样本节点和边都不是很大,下个项目将会讲解面对亿级别图应该如何去做。
|
8月前
|
机器学习/深度学习 自然语言处理 数据可视化
MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
MOIRAI 是 Salesforce 开发的早期时间序列基础模型,凭借出色的基准测试性能和开源的大规模预训练数据集 LOTSA 获得广泛关注。最新升级版本 MOIRAI-MOE 引入混合专家模型(Mixture of Experts, MOE),在模型性能上实现显著提升。本文深入分析 MOIRAI-MOE 的技术架构与实现机制,对比其与原版 MOIRAI 的差异,探讨 MOE 在提升预测准确率和处理频率变化问题上的作用,并展示其在分布内和零样本预测中的优异表现。实验结果显示,MOIRAI-MOE 以更少的激活参数量实现了更高的性能提升,成为时间序列预测领域的重要里程碑。
458 12
MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
|
10月前
|
监控 数据可视化 安全
AD域管理PowerShell常用命令总结
本文介绍了GET-ADUser命令在AD域管理中的多种应用场景,包括获取、过滤和导出用户信息至CSV文件。同时,推荐了卓豪ADManager Plus软件,该软件提供了批量用户与组管理、报表生成功能,极大简化了AD域的日常管理工作,提升了IT管理员的工作效率和准确性。
277 1
WK
|
11月前
|
开发框架 开发工具 C++
C++跨平台框架Qt
Qt是一个功能强大的C++跨平台应用程序开发框架,支持Windows、macOS、Linux、Android和iOS等操作系统。它提供了250多个C++类,涵盖GUI设计、数据库操作、网络编程等功能。Qt的核心特点是跨平台性、丰富的类库、信号与槽机制,以及良好的文档和社区支持。Qt Creator是其官方IDE,提供了一整套开发工具,方便创建、编译、调试和运行应用程序。Qt适用于桌面、嵌入式和移动应用开发。
WK
397 5

热门文章

最新文章