上海AI实验室开源发布高质量语料“万卷CC”

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 【2月更文挑战第17天】上海AI实验室开源发布高质量语料“万卷CC”

16.jpg
在人工智能和自然语言处理(NLP)领域,数据集的质量直接影响到模型训练的效果。为了支持更大规模的模型训练,上海AI实验室近期推出了一个名为“万卷CC”的英文网络文本数据集。这个数据集的发布,标志着在构建大规模预训练语言模型方面迈出了重要的一步。

万卷CC数据集的构建过程是一项复杂的工程。它基于Common Crawl的海量数据,通过一系列精心设计的步骤,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤,从而确保了数据的质量和安全性。这个过程不仅提高了数据的可用性,也为研究人员提供了一个更加丰富和多样化的数据资源。

在数据提取阶段,研究团队使用了trafilatura方法来提取文本,并利用pycld2库对文本进行语言分类,确保了数据集的英文内容。随后,通过一系列启发式规则,团队对数据进行了清洗,去除了格式错误、重复内容和广告信息等低质量数据。在安全过滤阶段,团队不仅使用了关键词和域名过滤,还引入了基于BERT的模型来识别和过滤有毒和色情内容,同时使用正则表达式来掩盖个人身份信息(PII),以保护用户隐私。

为了进一步提升数据质量,研究团队还引入了广告内容分类器和流畅性分类器,以确保数据集中的内容不仅安全,而且具有高质量。这些分类器的使用,使得数据集在支持语言模型训练的同时,也能够更好地服务于各种下游任务。

万卷CC数据集的发布,不仅提供了一个高质量的数据资源,还附带了详细的数据质量统计信息。这些信息帮助用户根据自己的需求,选择最合适的数据子集。此外,研究团队还通过与另一个数据集RefinedWeb的对比实验,证明了万卷CC在验证数据集上的困惑度和下游任务上的准确度方面的优势。

在数据安全方面,万卷CC的表现尤为突出。通过Perspective API的安全性评估,万卷CC在所有维度上的AUC值都低于其他数据集,显示出更高的安全性。这一成果不仅体现了研究团队在数据处理上的专业性,也为未来数据集的构建提供了宝贵的经验。

上海AI实验室的这一成果,为大规模语言模型的训练提供了坚实的基础。万卷CC的开源特性,使得全球的研究人员和开发者都能够访问和利用这一资源,推动了NLP领域的进步。随着人工智能技术的不断发展,我们可以期待万卷CC在未来的自然语言处理任务中发挥更大的作用,同时也期待研究团队在数据处理和模型训练方面取得更多的突破。

目录
相关文章
|
12天前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
26 3
|
2月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
103 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
28天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
8天前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
2月前
|
人工智能
Meta开源用于数学等复杂推理AI Agent—HUSKY
【8月更文挑战第19天】Meta AI团队开源了HUSKY,一种统一的AI代理,专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理,涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段,利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试,HUSKY展现出超越同类代理的性能,尤其是在新提出的HUSKYQA评估集中,其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开,以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)
29 2
|
2月前
|
人工智能 安全 Anolis
专访英特尔:开源与 AI 迅猛发展,龙蜥社区提供高效合作平台
龙蜥社区为开源技术、AI 技术提供了一个非常好的高效合作的平台。
|
2月前
|
人工智能 自然语言处理 API
AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)
AI大模型 智能AI开源模型与大模型接口整理(8个开源模型+7个大模型接口)
276 5
|
2月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
106 2
|
2月前
|
机器学习/深度学习 人工智能 安全
开源AI与专有AI的角力
开源AI与专有AI的角力

热门文章

最新文章

下一篇
无影云桌面