上海AI实验室开源发布高质量语料“万卷CC”

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 【2月更文挑战第17天】上海AI实验室开源发布高质量语料“万卷CC”

16.jpg
在人工智能和自然语言处理(NLP)领域,数据集的质量直接影响到模型训练的效果。为了支持更大规模的模型训练,上海AI实验室近期推出了一个名为“万卷CC”的英文网络文本数据集。这个数据集的发布,标志着在构建大规模预训练语言模型方面迈出了重要的一步。

万卷CC数据集的构建过程是一项复杂的工程。它基于Common Crawl的海量数据,通过一系列精心设计的步骤,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤,从而确保了数据的质量和安全性。这个过程不仅提高了数据的可用性,也为研究人员提供了一个更加丰富和多样化的数据资源。

在数据提取阶段,研究团队使用了trafilatura方法来提取文本,并利用pycld2库对文本进行语言分类,确保了数据集的英文内容。随后,通过一系列启发式规则,团队对数据进行了清洗,去除了格式错误、重复内容和广告信息等低质量数据。在安全过滤阶段,团队不仅使用了关键词和域名过滤,还引入了基于BERT的模型来识别和过滤有毒和色情内容,同时使用正则表达式来掩盖个人身份信息(PII),以保护用户隐私。

为了进一步提升数据质量,研究团队还引入了广告内容分类器和流畅性分类器,以确保数据集中的内容不仅安全,而且具有高质量。这些分类器的使用,使得数据集在支持语言模型训练的同时,也能够更好地服务于各种下游任务。

万卷CC数据集的发布,不仅提供了一个高质量的数据资源,还附带了详细的数据质量统计信息。这些信息帮助用户根据自己的需求,选择最合适的数据子集。此外,研究团队还通过与另一个数据集RefinedWeb的对比实验,证明了万卷CC在验证数据集上的困惑度和下游任务上的准确度方面的优势。

在数据安全方面,万卷CC的表现尤为突出。通过Perspective API的安全性评估,万卷CC在所有维度上的AUC值都低于其他数据集,显示出更高的安全性。这一成果不仅体现了研究团队在数据处理上的专业性,也为未来数据集的构建提供了宝贵的经验。

上海AI实验室的这一成果,为大规模语言模型的训练提供了坚实的基础。万卷CC的开源特性,使得全球的研究人员和开发者都能够访问和利用这一资源,推动了NLP领域的进步。随着人工智能技术的不断发展,我们可以期待万卷CC在未来的自然语言处理任务中发挥更大的作用,同时也期待研究团队在数据处理和模型训练方面取得更多的突破。

目录
相关文章
|
16天前
|
人工智能 安全 API
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
我们发起 HiMarket 的初心:帮助用户从 80% 开始构建 AI 开放平台。
108 11
|
14天前
|
人工智能 运维 安全
|
23天前
|
人工智能 云栖大会
|
人工智能 关系型数据库 MySQL
AI战略丨开源开放,构建 AI 时代的创新引擎
技术开源和产业开放彼此衔接、相互支撑,构建全产业链合作模式和无边界产业生态圈,日益成为数字时代全球分工体系的主流模式。
|
16天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
553 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
4天前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。
|
16天前
|
人工智能
四大公益场景,20万奖金!AI开源公益创新挑战赛邀你一起「小有可为」
四大公益场景,20万奖金!AI开源公益创新挑战赛邀你一起「小有可为」
94 8

热门文章

最新文章