智源研究院开源中文互联网语料库CCI3.0,1000GB数据集,498GB高质量子集,魔搭社区可下载

简介: 近日,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI)

近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0,并在2024年4月发布CCI 2.0。目前,CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

CCI 3.0下载地址

Flopsera:

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

ModelScope:

https://www.modelscope.cn/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3

1

规模扩大,来源广泛

CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,数据来源机构扩展至20多家,显著提升数据覆盖面和代表性。

2

精细标注,赋能应用

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。此外,CCI 3.0 HQ是基于70B模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。

3

效果显著,更懂中文

同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明,CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而CCI 3.0 HQ的效果更加突出。

模型训练效果对比

未来,智源研究院将继续携手行业生态推动语料库共建共享,构建大规模高质量高知识密度的中文数据集,为中国人工智能产业发展做出贡献。


点击链接👇,直达数据集~

https://www.modelscope.cn/datasets/BAAI/CCI3-Data?from=alizishequ__text

相关文章
|
存储 缓存 异构计算
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。
5811 0
|
XML 域名解析 JSON
【RESTful】RESTful API 接口设计规范 | 示例
【RESTful】RESTful API 接口设计规范 | 示例
12808 0
【RESTful】RESTful API 接口设计规范 | 示例
|
11月前
|
数据采集 自然语言处理 数据处理
智源研究院发布中文高质量数据集CCI3.0-HQ技术报告
智源研究院发布了CCI3.0-HQ中文预训练数据集,采用先进的混合质量过滤方法,显著提升数据完整性和性能。该数据集在多项实验中表现优异,超越了其他主流中文语料库。同时,智源还推出了CCI3-HQ分类器,大幅改进了大语言模型训练中的数据选择流程。
383 12
智源研究院发布中文高质量数据集CCI3.0-HQ技术报告
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
9月前
|
开发框架 前端开发 Go
eino — 基于go语言的大模型应用开发框架(二)
本文介绍了如何使用Eino框架实现一个基本的LLM(大语言模型)应用。Eino中的`ChatModel`接口提供了与不同大模型服务(如OpenAI、Ollama等)交互的统一方式,支持生成完整响应、流式响应和绑定工具等功能。`Generate`方法用于生成完整的模型响应,`Stream`方法以流式方式返回结果,`BindTools`方法为模型绑定工具。此外,还介绍了通过`Option`模式配置模型参数及模板功能,支持基于前端和用户自定义的角色及Prompt。目前主要聚焦于`ChatModel`的`Generate`方法,后续将继续深入学习。
1146 7
|
11月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
7326 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
机器学习/深度学习 API Python
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
Qwen2.5-Turbo已上线,支持100万超长上下文,相当于100万个英文单词或150万个汉字。该模型在多个长文本任务评测集中表现出色,超越GPT-4,同时在推理速度上实现4.3倍提升。限时免费赠送1000万tokens额度,欢迎体验。
4258 0
|
12月前
|
人工智能 并行计算 监控
深入剖析 Qwen2.5 - 32B 模型在 VLLM 上的单机三卡部署与运行
本文深入探讨了Qwen2.5 - 32B模型在VLLM框架上的部署过程,从模型下载、启动命令、资源占用分析到GPU资源分配及CUDA图应用,详述了大模型运行的挑战与优化策略,强调了硬件资源规划与技术调优的重要性。
6946 2
|
数据采集 人工智能 分布式计算
字节北大万卡集群成功搭建 MegaScale 系统
【2月更文挑战第13天】字节北大万卡集群成功搭建 MegaScale 系统
434 2
字节北大万卡集群成功搭建 MegaScale 系统
|
存储 关系型数据库 MySQL
【阿里规约】阿里开发手册解读——数据库和ORM篇
从命名规范、建表规范、查询规范、索引规范、操作规范等角度出发,详细阐述MySQL数据库使用过程中所需要遵循的各种规范。
【阿里规约】阿里开发手册解读——数据库和ORM篇