FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多语言支持:覆盖超过 1000 种语言,支持全球多种语言的 NLP 任务。
  2. 定制化处理:针对不同语言特性,调整数据处理流程,包括语言特定的过滤器和停用词。
  3. 技术评估:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

正文

FineWeb 2 是什么

公众号: 蚝油菜花 - fineweb-2

FineWeb 2 是 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言。该数据集通过定制化的数据管道处理,包括语言识别、去重、内容过滤和 PII 匿名化,适应不同语言的特点。

FineWeb 2 数据集支持广泛的 NLP 任务,如机器翻译、文本分类等,帮助提升多语言模型的性能和泛化能力。FineWeb 2 为开发者和研究人员提供检验新算法和技术的平台,提高多语言处理的普遍性和性能。

FineWeb 2 的主要功能

  • 多语言数据集构建:为超过 1000 种语言提供高质量的预训练数据,支持全球多种语言的 NLP 任务。
  • 定制化数据处理:针对不同语言的特性,调整数据处理流程,包括语言特定的过滤器和停用词。
  • 语言识别:使用 GlotLID 技术,识别文档中的语言和使用的脚本。
  • 去重:按语言全局去重,保留文档的多样性,记录重复文档的大小,便于“重新水化”数据集。
  • 数据过滤:保留原始 FineWeb 的过滤集,根据多语言环境调整,适应不同语言。
  • PII 匿名化:对个人身份信息进行匿名化处理,保护隐私。
  • 编码修复:使用 FTFY 工具修复编码问题。
  • 评估与训练:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

FineWeb 2 的技术原理

  • 数据预处理

    • 语言识别:基于 GlotLID 技术对文档进行语言识别,确定文档的语言和使用的脚本。
    • 去重:对每种语言的数据进行全局去重,保留一个文档,记录重复文档的簇大小。
    • 过滤:根据语言特性调整过滤器,去除不符合要求的数据。
    • PII 匿名化:对文档中的个人身份信息进行匿名化处理,包括电子邮件和 IP 地址。
    • 数据“重新水化”:根据重复文档的簇大小,对文档进行上采样,提高某些语言的数据量和质量。
  • 评估与训练

    • 使用 FineTasks 评估套件对每个处理步骤后的模型进行评估。
    • 提供训练代码,基于 nanotron 框架训练 1.46B 模型。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
aiXcoder XL 智能编程大模型发布:自然语言一键生成方法级代码
aiXcoder XL 的出现,为程序员提供了大模型时代的个性化智能编程体验。随着 AI 技术的发展和普及,这或将重新定义编程领域。
742 0
aiXcoder XL 智能编程大模型发布:自然语言一键生成方法级代码
|
2天前
|
机器学习/深度学习 自然语言处理 安全
Llama 3.3开源!70B媲美405B性能,支持128K上下文
近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。
|
3月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
7月前
|
人工智能 编解码 自然语言处理
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
173 1
|
6月前
|
人工智能 自然语言处理 算法
LLM主流开源代表模型(二)
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM主流开源代表模型(一)
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
|
7月前
|
机器学习/深度学习 人工智能 算法
在对齐 AI 时,为什么在线方法总是优于离线方法?
【5月更文挑战第28天】在线AI对齐优于离线方法的原因在于其能更好地捕捉人类反馈的细微差别,通过多样化和相关的数据生成。尽管离线方法效率高、可利用大规模数据,但其数据集可能无法全面反映实际应用场景。研究强调在线采样的关键作用,但也指出离线对齐的效率和泛化优势。[查看论文](https://arxiv.org/abs/2405.08448)以获取详细信息。
73 2
|
存储 缓存 数据库
CodeFuse开源ModelCache大模型语义缓存
CodeFuse 开源火热进行中!本次开源的是 ModelCache 大模型语义缓存,可大幅降低大模型应用的推理成本,提升用户体验。 CodeFuse-ModelCache 项目地址: https://github.com/codefuse-ai/CodeFuse-ModelCache
452 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
GPT-5,将在高级推理功能上实现重大进步
OpenAI的GPT-5预计带来巨大性能飞跃,实现高级推理的质变,推动AI在金融、医疗等领域广泛应用。奥特曼专注构建通用人工智能,忽略区块链等其他领域。GPT-5可能开启多模态AI新篇章,促进新商业模式发展,但也加剧数据需求、就业市场变化及伦理监管挑战。其在科学研究中的潜力,如加速核聚变研究,也备受期待。
96 1
|
7月前
|
存储 人工智能 自然语言处理
选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
OpenAI最近发布了他们的新一代嵌入模型*embedding v3*,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
357 0

热门文章

最新文章