智源研究院发布开源中文互联网语料库CCI 4.0,新增高质量英文数据与合成数据

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。

2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。

CCI 4.0兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。

image.gif 编辑

智源研究院于2023年11月首次发布中文互联网语料库CCI 1.0,并于2024年3月和10月分别完成CCI2.0和CCI3.0的迭代,系列数据集的下载量已超过14万次,支持500余个企事业单位的大模型研发。

此次开源的CCI 4.0-M2-V1包括3个子数据集,即CCI 4.0-M2-Base V1、CCI 4.0-M2-CoT V1和CCI 4.0-M2-Extra V1,数据总量达35TB。其中,CCI 4.0-M2-Base V1是中英双语数据集,数据总量达26000GB,中文数据量为4300GB,相较于CCI 3.0数据规模增加4倍;CCI 4.0-M2-CoT V1 是中英双语合成数据集,包含用于提升推理能力的超过4亿条逆向合成人类思考轨迹数据,总token数量达425B(4250亿),比当前全球最大的开源合成数据集Cosmopedia规模提升近20倍。

魔搭地址:

https://modelscope.cn/datasets/BAAI/CCI4.0-M2-Base-v1

https://modelscope.cn/datasets/BAAI/CCI4.0-M2-CoT-v1

https://modelscope.cn/datasets/BAAI/CCI4.0-M2-Extra-v1

BAAI datahub地址:

https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-Base-v1

https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-CoT-v1

https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-Extra-v1

针对不同来源的数据,CCI 4.0在建设过程中采取了去重、质量分类、QA合成、loss过滤的处理原则。针对英文数据,进行领域分类和流畅度过滤等处理;针对中文数据,进行全局及分领域来源字符串去重,常规、低质、分领域流畅程度过滤,多种质量打分和分档等处理;针对合成数据,进行语义分段及摘要、总结思维链及合成问题等处理。智源研究院就CCI 4.0数据集开源进行了严格评审,以确保数据安全合规。

CCI 4.0数据集中的英文语料、中文语料及合成数据对模型训练效率及性能均有有效提升。

image.gif 编辑

图1:CCI 4.0的数据加工方法在Nemotron-CC高质量数据集的使用前后效果对比

如图1所示,针对相同的英文网页原始语料(Nemotron-CC-high),CCI 4.0设计了基于loss过滤操作的有效性验证实验,通过使用过滤前与过滤后(Nemotron-CC-high from CCI4.0)的英文语料分别训练模型,再进一步对比模型在下游任务上的平均性能表示。结果显示,在训练过程中基于loss过滤的英文语料可在训练过程中提升模型的训练效率。

image.gif 编辑

图2:CCI4.0-HQ中文数据集和CCI3.0-HQ数据集在训练500M模型效果上的对比

如图2所示,针对中文语料,设计了中文语料处理有效性的验证实验,以CCI 3.0中的中文网页语料数据作为基线方法进行模型训练表现对比,结果显示,相较于CCI 3.0的高质量中文数据集, CCI 4.0中的高质量中文网页数据仍可继续提升模型的训练效率。

image.gif 编辑

图3:CCI 4.0-M2-CoT合成数据集效果验证

如图3所示,为验证合成数据的作用,设计了合成数据对于模型预训练的性能影响对比实验。分别使用含有合成数据的预训练语料和不含合成数据的预训练语料训练模型,结果显示,含有合成数据的预训练语料可在训练后期增强了模型在下游任务上的表现。

未来,智源研究院将持续开展高质量数据的开源建设工作,不断提升数据集质量,扩展语言和内容覆盖度,增加数据集的领域支持,助力全球大模型的开源创新和人工智能的产业发展。

 

点击链接阅读原文,即可跳转合集页

https://modelscope.cn/organization/BAAI?tab=dataset

目录
打赏
0
10
10
0
390
分享
相关文章
魔搭社区模型速递(6.2-6.7)
魔搭ModelScope本期社区进展:1910个模型,183个数据集,47个创新应用,5 篇内容
183 11
魔搭社区模型速递(6.2-6.7)
AI Agent
本文介绍了AI Agent的概念及其在云计算3.0时代的焦点地位,强调了其与大语言模型(LLM)的紧密联系。AI Agent由控制端(Brain)、感知端(Perception)和行动端(Action)组成,能够通过LLMs实现复杂的任务分解、记忆管理及工具使用。文章探讨了单代理、多代理及人机交互的应用场景,并分析了钢铁侠中贾维斯的现实版——微软开源JARVIS项目。此外,还提及了国内外多个开源平台及Python在AI领域的核心地位,同时提出了关于智能代理发展的开放问题,如安全性、群体智能演化及代理服务化等。最后提供了丰富的参考资料以供深入研究。
438 16
AI Agent
10分钟,用RAG搭建专业钉钉/飞书客服机器人
只需10分钟,快速搭建专属客服机器人,大幅提升工作效率!通过魔搭社区注册账号、绑定阿里云账号获取免费算力资源,并选择GPU模式运行教程脚本。按照食用指引操作,完成机器人部署并进行对话测试,前5位在评论区提交作业的用户将获赠魔搭社区时尚咖啡杯一个。立即点击教程脚本链接开始体验吧!
215 0
魔搭社区模型速递(5.18-5.24)
魔搭ModelScope本期社区进展:📟3790个模型,📁307个数据集,🎨90个创新应用,📄 7 篇内容
276 14
面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!
面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。
446 14
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
354 32
|
1月前
开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名
开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名
243 13
AgentScope 与 MCP:实践、思考与展望
AgentScope 作为一款功能强大的开源多智能体开发框架,为开发者提供了智能体构建、工具使用、多智能体编排等全方位支持。
358 37
合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源
上海人工智能实验室开源了生成式世界模型AETHER,该模型仅用合成数据训练,却能在真实环境中展现强大的零样本泛化能力。AETHER首创「重建—预测—规划」一体化框架,融合几何重建与生成建模,大幅提升模型在动态环境中的决策、规划和预测能力。其核心技术包括目标导向视觉规划、4D动态重建和动作条件视频预测,实验结果表明其性能达到或超越现有SOTA水平。论文、模型及项目主页均已开源。
124 2

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问