上海AI实验室开源发布高质量语料“万卷CC”

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 【2月更文挑战第17天】上海AI实验室开源发布高质量语料“万卷CC”

16.jpg
在人工智能和自然语言处理(NLP)领域,数据集的质量直接影响到模型训练的效果。为了支持更大规模的模型训练,上海AI实验室近期推出了一个名为“万卷CC”的英文网络文本数据集。这个数据集的发布,标志着在构建大规模预训练语言模型方面迈出了重要的一步。

万卷CC数据集的构建过程是一项复杂的工程。它基于Common Crawl的海量数据,通过一系列精心设计的步骤,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤,从而确保了数据的质量和安全性。这个过程不仅提高了数据的可用性,也为研究人员提供了一个更加丰富和多样化的数据资源。

在数据提取阶段,研究团队使用了trafilatura方法来提取文本,并利用pycld2库对文本进行语言分类,确保了数据集的英文内容。随后,通过一系列启发式规则,团队对数据进行了清洗,去除了格式错误、重复内容和广告信息等低质量数据。在安全过滤阶段,团队不仅使用了关键词和域名过滤,还引入了基于BERT的模型来识别和过滤有毒和色情内容,同时使用正则表达式来掩盖个人身份信息(PII),以保护用户隐私。

为了进一步提升数据质量,研究团队还引入了广告内容分类器和流畅性分类器,以确保数据集中的内容不仅安全,而且具有高质量。这些分类器的使用,使得数据集在支持语言模型训练的同时,也能够更好地服务于各种下游任务。

万卷CC数据集的发布,不仅提供了一个高质量的数据资源,还附带了详细的数据质量统计信息。这些信息帮助用户根据自己的需求,选择最合适的数据子集。此外,研究团队还通过与另一个数据集RefinedWeb的对比实验,证明了万卷CC在验证数据集上的困惑度和下游任务上的准确度方面的优势。

在数据安全方面,万卷CC的表现尤为突出。通过Perspective API的安全性评估,万卷CC在所有维度上的AUC值都低于其他数据集,显示出更高的安全性。这一成果不仅体现了研究团队在数据处理上的专业性,也为未来数据集的构建提供了宝贵的经验。

上海AI实验室的这一成果,为大规模语言模型的训练提供了坚实的基础。万卷CC的开源特性,使得全球的研究人员和开发者都能够访问和利用这一资源,推动了NLP领域的进步。随着人工智能技术的不断发展,我们可以期待万卷CC在未来的自然语言处理任务中发挥更大的作用,同时也期待研究团队在数据处理和模型训练方面取得更多的突破。

目录
相关文章
|
4天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
116 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
2天前
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
72 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。
101 23
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
|
1天前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
66 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
6天前
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
95 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。
137 16
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
|
17天前
|
存储 人工智能 自然语言处理
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。
143 12
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
|
16天前
|
人工智能 测试技术 Python
VideoChat-Flash:上海AI Lab开源高效处理超长视频的多模态大模型
VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型,通过分层压缩技术高效处理长视频,支持长达数小时的视频输入,推理速度提升5-10倍。
57 1
VideoChat-Flash:上海AI Lab开源高效处理超长视频的多模态大模型
|
14天前
|
人工智能 自然语言处理 JavaScript
微软开源课程!21节课程教你开发生成式 AI 应用所需了解的一切
微软推出的生成式 AI 入门课程,涵盖 21 节课程,帮助开发者快速掌握生成式 AI 应用开发,支持 Python 和 TypeScript 代码示例。
203 14
|
12天前
|
人工智能 开发者 Python
Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用
Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。
92 9

热门文章

最新文章