上海AI实验室开源发布高质量语料“万卷CC”

简介: 【2月更文挑战第17天】上海AI实验室开源发布高质量语料“万卷CC”

16.jpg
在人工智能和自然语言处理(NLP)领域,数据集的质量直接影响到模型训练的效果。为了支持更大规模的模型训练,上海AI实验室近期推出了一个名为“万卷CC”的英文网络文本数据集。这个数据集的发布,标志着在构建大规模预训练语言模型方面迈出了重要的一步。

万卷CC数据集的构建过程是一项复杂的工程。它基于Common Crawl的海量数据,通过一系列精心设计的步骤,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤,从而确保了数据的质量和安全性。这个过程不仅提高了数据的可用性,也为研究人员提供了一个更加丰富和多样化的数据资源。

在数据提取阶段,研究团队使用了trafilatura方法来提取文本,并利用pycld2库对文本进行语言分类,确保了数据集的英文内容。随后,通过一系列启发式规则,团队对数据进行了清洗,去除了格式错误、重复内容和广告信息等低质量数据。在安全过滤阶段,团队不仅使用了关键词和域名过滤,还引入了基于BERT的模型来识别和过滤有毒和色情内容,同时使用正则表达式来掩盖个人身份信息(PII),以保护用户隐私。

为了进一步提升数据质量,研究团队还引入了广告内容分类器和流畅性分类器,以确保数据集中的内容不仅安全,而且具有高质量。这些分类器的使用,使得数据集在支持语言模型训练的同时,也能够更好地服务于各种下游任务。

万卷CC数据集的发布,不仅提供了一个高质量的数据资源,还附带了详细的数据质量统计信息。这些信息帮助用户根据自己的需求,选择最合适的数据子集。此外,研究团队还通过与另一个数据集RefinedWeb的对比实验,证明了万卷CC在验证数据集上的困惑度和下游任务上的准确度方面的优势。

在数据安全方面,万卷CC的表现尤为突出。通过Perspective API的安全性评估,万卷CC在所有维度上的AUC值都低于其他数据集,显示出更高的安全性。这一成果不仅体现了研究团队在数据处理上的专业性,也为未来数据集的构建提供了宝贵的经验。

上海AI实验室的这一成果,为大规模语言模型的训练提供了坚实的基础。万卷CC的开源特性,使得全球的研究人员和开发者都能够访问和利用这一资源,推动了NLP领域的进步。随着人工智能技术的不断发展,我们可以期待万卷CC在未来的自然语言处理任务中发挥更大的作用,同时也期待研究团队在数据处理和模型训练方面取得更多的突破。

目录
相关文章
|
1月前
|
存储 SQL 人工智能
新年将至,为大家推荐一款开源AI红包封面制作神器AiCover!
新年将至,为大家推荐一款开源AI红包封面制作神器AiCover!
|
1月前
|
机器学习/深度学习 人工智能 API
『GitHub项目圈选06』推荐5款本周 超火 的开源AI项目
『GitHub项目圈选06』推荐5款本周 超火 的开源AI项目
|
1月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
208 0
|
1月前
|
人工智能 开发者 Python
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
184 1
|
1月前
|
人工智能 搜索推荐 安全
Star 18k!推荐一款免费开源的简历生成神器,还搭配AI助力,面试官看了都不仅赞叹!
Star 18k!推荐一款免费开源的简历生成神器,还搭配AI助力,面试官看了都不仅赞叹!
|
1月前
|
人工智能 搜索推荐 物联网
被鹅厂最新开源AI绘画工具PhotoMaker圈粉了,多风格头像生成器就靠它了!
被鹅厂最新开源AI绘画工具PhotoMaker圈粉了,多风格头像生成器就靠它了!
226 1
|
1月前
|
数据采集 人工智能 自然语言处理
中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!
中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!
|
1月前
|
人工智能 JavaScript API
互联网人的福利!『昆仑天工』4款AI产品开源!提供API对接!
互联网人的福利!『昆仑天工』4款AI产品开源!提供API对接!
181 0
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1543 0
与世界同行 2017中国人工智能大会有感