智源研究院开源中文互联网语料库CCI3.0,1000GB数据集,498GB高质量子集,魔搭社区可下载

简介: 近日,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI)

近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0,并在2024年4月发布CCI 2.0。目前,CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

CCI 3.0下载地址

Flopsera:

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

ModelScope:

https://www.modelscope.cn/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3

1

规模扩大,来源广泛

CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,数据来源机构扩展至20多家,显著提升数据覆盖面和代表性。

2

精细标注,赋能应用

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。此外,CCI 3.0 HQ是基于70B模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。

3

效果显著,更懂中文

同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明,CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而CCI 3.0 HQ的效果更加突出。

模型训练效果对比

未来,智源研究院将继续携手行业生态推动语料库共建共享,构建大规模高质量高知识密度的中文数据集,为中国人工智能产业发展做出贡献。


点击链接👇,直达数据集~

https://www.modelscope.cn/datasets/BAAI/CCI3-Data?from=alizishequ__text

相关文章
|
7月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
20天前
|
数据采集 自然语言处理 数据处理
智源研究院发布中文高质量数据集CCI3.0-HQ技术报告
智源研究院发布了CCI3.0-HQ中文预训练数据集,采用先进的混合质量过滤方法,显著提升数据完整性和性能。该数据集在多项实验中表现优异,超越了其他主流中文语料库。同时,智源还推出了CCI3-HQ分类器,大幅改进了大语言模型训练中的数据选择流程。
智源研究院发布中文高质量数据集CCI3.0-HQ技术报告
|
7月前
|
人工智能 搜索推荐
国产黑马与GPT-4o称霸中文榜首!Yi-Large勇夺国内LLM盲测桂冠,冲进世界第七
在Chatbot Arena上,中国大模型公司零一万物的Yi-Large模型异军突起,超越多款国际大厂模型,成为中国首位、世界第7的千亿参数模型。OpenAI确认该模型为GPT-4的测试版。LMSYS Arena的盲测结果显示,Yi-Large在中文榜上与GPT-4o并列第一。此外,Yi-Large在编程能力、长提问和艰难提示词评测中均表现出色,位居全球第二。Chatbot Arena以其公正的盲测机制和Elo评分系统,成为大模型评测的新标准,获得了业界认可。Yi-Large的成功展示了中国在大模型领域的进步,推动了行业的客观评价和健康发展。
86 1
|
7月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
7月前
|
人工智能 JSON 安全
超越GPT4!Cluade 3重磅发布!国外最新大模型!
超越GPT4!Cluade 3重磅发布!国外最新大模型!
100 0
|
7月前
|
人工智能 Apache
社区供稿 | 140B参数、可商用!OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版
我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。
|
7月前
|
自然语言处理 JavaScript Java
CodeFuse新开源模型荣登Big Code评测榜首!
使用多任务高效微调框架MFTCoder,以DeepSeek-Coder-33b模型为底座,微调获得的CodeFuse-DeepSeek-33b模型在Big Code Models Leaderboard代码大模型榜单上以43.58% WinRate成为新晋榜首,同时模型在NLP任务上也取得了很好的表现。本文我们将介绍该模型的得来和使用,包括训练数据、训练超参设置、模型评测效果以及如何获取该模型和基于它继续微调。我们已经在HuggingFace和ModelScope开放了模型下载(下载地址在文末),并同步提供了4bit量化版本供大家直接部署到生产环境。
411 0
|
数据采集 人工智能 自然语言处理
社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!
OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身
|
存储 人工智能 算法
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
196 0
|
机器学习/深度学习 人工智能 自然语言处理
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
231 0