魔哈镜像迄今最大合成数据集 Cosmopedia

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。

Cosmopedia

Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。受 Phi1.5 工作的启发,Cosmopedia 的初始版本为合成数据领域的研究奠定了基础。它作为不同主题的综合资源,强调其在后续迭代中进一步增强的潜力。

Cosmopedia分为八个部分,每个部分都源自不同的种子样本。这些分割包括 web_samples_v1 和 web_samples_v2,约占数据集的 75%,源自类似于 RefinedWeb 的内部 Web 数据集。斯坦福分部利用了来自 stanford.edu 的课程大纲,而故事分部则采用了 UltraChat 和 OpenHermes2.5 生成的叙述。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 拆分涉及与其各自来源相关的提示。

Dataset splits

Prompts都基于使用种子样本(例如网页摘录)的概念,并要求模型生成与该种子样本相关的新内容(教科书、故事、博客文章)。数据集由8个拆分组成,具体取决于拆分中使用的种子数据的来源。下图显示了Cosmopedia中种子数据集、世代格式和受众的分布:
image.png

除了去污染外,Cosmopedia将解释网络样本的主题聚类方法以及我们完善提示的迭代过程。主题聚类 我们的目标是以教科书等更干净的格式生成大量合成数据,涵盖广泛的主题(本质上,在网络上发现的任何有用的东西)

如何在魔哈上使用Cosmopedia

首先魔哈仓库已经完全同步了Cosmopedia数据集,并会在每天早上定期从 HuggingFace上更新最新版本的数据集
image.png

目前有两种方式可以通过魔哈·Moha仓库来加速您下载Cosmopedia数据集

设置魔哈官方地址直接下载数据集

export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface

使用Moha专属CDN加速从HuggingFace上下载数据集
image.png

联系我们

关注"晓石AI" 咨询更多问题

目录
相关文章
|
1月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
51 4
|
2月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
49 1
|
4月前
使用高性能服务器训练StableDiffusion——人物模型.safetensors
使用高性能服务器训练StableDiffusion——人物模型.safetensors
46 0
|
5月前
|
机器学习/深度学习 编解码 数据可视化
Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架
Mamba入局遥感图像分割 | Samba: 首个基于SSM的遥感高分图像语义分割框架
132 3
|
5月前
|
传感器 机器学习/深度学习 编解码
卫星图像10个开源数据集资源汇总
卫星图像10个开源数据集资源汇总
141 0
|
机器学习/深度学习 数据可视化 算法
基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
382 0
|
10月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
328 1
|
数据库
开源数据集——行人数据
开源数据集——行人数据
3366 0
开源数据集——行人数据
|
存储 机器学习/深度学习 机器人
对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023
对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023
182 0
|
编解码 人工智能 自然语言处理
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
125 0

热门文章

最新文章