上海AI实验室开源发布高质量语料“万卷CC”

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【2月更文挑战第17天】上海AI实验室开源发布高质量语料“万卷CC”

16.jpg
在人工智能和自然语言处理(NLP)领域,数据集的质量直接影响到模型训练的效果。为了支持更大规模的模型训练,上海AI实验室近期推出了一个名为“万卷CC”的英文网络文本数据集。这个数据集的发布,标志着在构建大规模预训练语言模型方面迈出了重要的一步。

万卷CC数据集的构建过程是一项复杂的工程。它基于Common Crawl的海量数据,通过一系列精心设计的步骤,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤,从而确保了数据的质量和安全性。这个过程不仅提高了数据的可用性,也为研究人员提供了一个更加丰富和多样化的数据资源。

在数据提取阶段,研究团队使用了trafilatura方法来提取文本,并利用pycld2库对文本进行语言分类,确保了数据集的英文内容。随后,通过一系列启发式规则,团队对数据进行了清洗,去除了格式错误、重复内容和广告信息等低质量数据。在安全过滤阶段,团队不仅使用了关键词和域名过滤,还引入了基于BERT的模型来识别和过滤有毒和色情内容,同时使用正则表达式来掩盖个人身份信息(PII),以保护用户隐私。

为了进一步提升数据质量,研究团队还引入了广告内容分类器和流畅性分类器,以确保数据集中的内容不仅安全,而且具有高质量。这些分类器的使用,使得数据集在支持语言模型训练的同时,也能够更好地服务于各种下游任务。

万卷CC数据集的发布,不仅提供了一个高质量的数据资源,还附带了详细的数据质量统计信息。这些信息帮助用户根据自己的需求,选择最合适的数据子集。此外,研究团队还通过与另一个数据集RefinedWeb的对比实验,证明了万卷CC在验证数据集上的困惑度和下游任务上的准确度方面的优势。

在数据安全方面,万卷CC的表现尤为突出。通过Perspective API的安全性评估,万卷CC在所有维度上的AUC值都低于其他数据集,显示出更高的安全性。这一成果不仅体现了研究团队在数据处理上的专业性,也为未来数据集的构建提供了宝贵的经验。

上海AI实验室的这一成果,为大规模语言模型的训练提供了坚实的基础。万卷CC的开源特性,使得全球的研究人员和开发者都能够访问和利用这一资源,推动了NLP领域的进步。随着人工智能技术的不断发展,我们可以期待万卷CC在未来的自然语言处理任务中发挥更大的作用,同时也期待研究团队在数据处理和模型训练方面取得更多的突破。

目录
相关文章
|
7天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
114 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
3天前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
145 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
5天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
346 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
6天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
122 27
|
5天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
55 14
|
3天前
|
人工智能 JSON 搜索推荐
猫步简历 - 开源免费AI简历生成器 | 一键导出PDF/JSON
猫步简历是一款免费开源的AI简历生成器,帮助用户轻松创建独特、专业的简历。支持导出超高清PDF、图片、JSON等多种格式,并提供AI智能创作、润色和多语种切换等功能。拥有海量模板、高度定制化模块及完善的后台管理系统,助力求职者脱颖而出。官网:https://maobucv.com,GitHub开源地址:https://github.com/Hacker233/resume-design。
67 10
|
5天前
|
存储 人工智能 API
ChatGPT-on-WeChat:Star32.4k, DeepSeek加持!这款开源神器秒变AI助手,聊天体验直接起飞!
嗨,大家好,我是小华同学。今天为大家介绍一款结合DeepSeek引擎的开源项目——ChatGPT-on-WeChat,由开发者zhayujie打造。它将微信变成智能AI助手,支持文本、图片、语音对话,具备定时提醒、天气查询等扩展功能,完全开源且易于定制。项目地址:https://github.com/zhayujie/chatgpt-on-wechat。关注我们,获取更多优质开源项目和高效学习方法。
107 11
|
3天前
|
人工智能 编解码 vr&ar
Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率
Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。
77 4
|
8天前
|
人工智能 安全 开发工具
Repomix:8.1K Star!轻松将整个代码库打包为AI友好格式的开源工具,使代码库更易于AI理解
Repomix 是一款强大的工具,能够将整个代码库打包成AI友好的单个文件,支持多种输出格式和安全检查。
61 9
|
7天前
|
人工智能 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 7.4 应用实践之 AI大模型外脑
PolarDB向量数据库插件通过实现通义大模型AI的外脑,解决了通用大模型无法触达私有知识库和产生幻觉的问题。该插件允许用户将新发现的知识和未训练的私有知识分段并转换为向量,存储在向量数据库中,并创建索引以加速相似搜索。当用户提问时,系统将问题向量化并与数据库中的向量进行匹配,找到最相似的内容发送给大模型,从而提高回答的准确性和相关性。此外,PolarDB支持多种编程语言接口,如Python,使数据库具备内置AI能力,极大提升了数据处理和分析的效率。
30 4