FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言

简介: FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多语言支持:覆盖超过 1000 种语言,支持全球多种语言的 NLP 任务。
  2. 定制化处理:针对不同语言特性,调整数据处理流程,包括语言特定的过滤器和停用词。
  3. 技术评估:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

正文

FineWeb 2 是什么

公众号: 蚝油菜花 - fineweb-2

FineWeb 2 是 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言。该数据集通过定制化的数据管道处理,包括语言识别、去重、内容过滤和 PII 匿名化,适应不同语言的特点。

FineWeb 2 数据集支持广泛的 NLP 任务,如机器翻译、文本分类等,帮助提升多语言模型的性能和泛化能力。FineWeb 2 为开发者和研究人员提供检验新算法和技术的平台,提高多语言处理的普遍性和性能。

FineWeb 2 的主要功能

  • 多语言数据集构建:为超过 1000 种语言提供高质量的预训练数据,支持全球多种语言的 NLP 任务。
  • 定制化数据处理:针对不同语言的特性,调整数据处理流程,包括语言特定的过滤器和停用词。
  • 语言识别:使用 GlotLID 技术,识别文档中的语言和使用的脚本。
  • 去重:按语言全局去重,保留文档的多样性,记录重复文档的大小,便于“重新水化”数据集。
  • 数据过滤:保留原始 FineWeb 的过滤集,根据多语言环境调整,适应不同语言。
  • PII 匿名化:对个人身份信息进行匿名化处理,保护隐私。
  • 编码修复:使用 FTFY 工具修复编码问题。
  • 评估与训练:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

FineWeb 2 的技术原理

  • 数据预处理

    • 语言识别:基于 GlotLID 技术对文档进行语言识别,确定文档的语言和使用的脚本。
    • 去重:对每种语言的数据进行全局去重,保留一个文档,记录重复文档的簇大小。
    • 过滤:根据语言特性调整过滤器,去除不符合要求的数据。
    • PII 匿名化:对文档中的个人身份信息进行匿名化处理,包括电子邮件和 IP 地址。
    • 数据“重新水化”:根据重复文档的簇大小,对文档进行上采样,提高某些语言的数据量和质量。
  • 评估与训练

    • 使用 FineTasks 评估套件对每个处理步骤后的模型进行评估。
    • 提供训练代码,基于 nanotron 框架训练 1.46B 模型。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习
大模型训练loss突刺原因和解决办法
【1月更文挑战第19天】大模型训练loss突刺原因和解决办法
2391 1
大模型训练loss突刺原因和解决办法
|
机器学习/深度学习 自然语言处理 算法
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
10351 145
|
7月前
|
机器学习/深度学习 自然语言处理 API
Qwen-MT:翻得快,译得巧
今天,机器翻译模型Qwen-MT正式上线,支持92种语言互译,具备高度可控性与低延迟、低成本特点,适用于多种场景。开发者可通过Qwen API体验其强大翻译能力。
1425 15
|
12月前
|
文字识别 测试技术 语音技术
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
2862 6
看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!
|
安全 Java Linux
docker阿里云镜像加速
我们都知道因为某些原因我们访问外网都是比较慢的,比如我们使用maven下载依赖时是一个道理,同样的使用docker从docker.hub上下载镜像也是比较慢的。针对这种访问官网比较慢的情况有两种方案,第一种就是使用国内的仓库,第二种就是使用一个加速器。这里我们配置docker的镜像加速从来来实现提速。
15197 1
docker阿里云镜像加速
|
自然语言处理 JavaScript 前端开发
Qwen开源多语言基准数据集P-MMEval
Qwen开源多语言基准数据集P-MMEval
|
数据采集 人工智能 文字识别
高能力全透明双语大语言模型MAP-Neo完全开源,开放所有细节!
近年来,大型语言模型 (LLMs) 在各种任务中取得了前所未有的性能提升。然而,由于商业利益,最强大的模型(如 GPT、Gemini 和Claude)只能通过API访问,并未公开训练细节。
|
人工智能 自然语言处理 算法
Qwen-Coder:通过Qwen 2.5模型实现智能代码生成的技术实践
Qwen-Coder:通过Qwen 2.5模型实现智能代码生成的技术实践
|
数据采集 自然语言处理 文字识别
92页的llama 3.1技术报告,我替你们啃下来了
作者花了半个月时间,认真读完了llama 3.1技术报告,并总结成本文,希望能帮到对这个感兴趣的小伙伴们。
1981 9
92页的llama 3.1技术报告,我替你们啃下来了

热门文章

最新文章