魔哈镜像迄今最大合成数据集 Cosmopedia

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。

Cosmopedia

Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。受 Phi1.5 工作的启发,Cosmopedia 的初始版本为合成数据领域的研究奠定了基础。它作为不同主题的综合资源,强调其在后续迭代中进一步增强的潜力。

Cosmopedia分为八个部分,每个部分都源自不同的种子样本。这些分割包括 web_samples_v1 和 web_samples_v2,约占数据集的 75%,源自类似于 RefinedWeb 的内部 Web 数据集。斯坦福分部利用了来自 stanford.edu 的课程大纲,而故事分部则采用了 UltraChat 和 OpenHermes2.5 生成的叙述。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 拆分涉及与其各自来源相关的提示。

Dataset splits

Prompts都基于使用种子样本(例如网页摘录)的概念,并要求模型生成与该种子样本相关的新内容(教科书、故事、博客文章)。数据集由8个拆分组成,具体取决于拆分中使用的种子数据的来源。下图显示了Cosmopedia中种子数据集、世代格式和受众的分布:
image.png

除了去污染外,Cosmopedia将解释网络样本的主题聚类方法以及我们完善提示的迭代过程。主题聚类 我们的目标是以教科书等更干净的格式生成大量合成数据,涵盖广泛的主题(本质上,在网络上发现的任何有用的东西)

如何在魔哈上使用Cosmopedia

首先魔哈仓库已经完全同步了Cosmopedia数据集,并会在每天早上定期从 HuggingFace上更新最新版本的数据集
image.png

目前有两种方式可以通过魔哈·Moha仓库来加速您下载Cosmopedia数据集

设置魔哈官方地址直接下载数据集

export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface

使用Moha专属CDN加速从HuggingFace上下载数据集
image.png

联系我们

关注"晓石AI" 咨询更多问题

目录
相关文章
|
2月前
|
人工智能
港科大等发布多模态图推理问答数据集GITQA
【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA
90 7
港科大等发布多模态图推理问答数据集GITQA
|
1月前
使用高性能服务器训练StableDiffusion——人物模型.safetensors
使用高性能服务器训练StableDiffusion——人物模型.safetensors
19 0
|
2月前
|
人工智能 算法 开发者
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
【5月更文挑战第9天】苹果开源大语言模型OpenELM,提升效率和准确性,参数仅为10亿时比OLMo准确度高2.36%。苹果首次公开训练全过程、权重、数据集和代码,增强研究透明度,支持在苹果设备上推理和微调,推动AI研究发展。但训练资源需求高和模型可解释性仍是挑战。论文链接:[arxiv.org/pdf/2404.14619.pdf](https://arxiv.org/pdf/2404.14619.pdf)
34 3
|
2月前
|
传感器 机器学习/深度学习 编解码
卫星图像10个开源数据集资源汇总
卫星图像10个开源数据集资源汇总
67 0
|
2月前
|
编解码 人工智能 自然语言处理
七火山发布Etna文生视频模型
【2月更文挑战第17天】七火山发布Etna文生视频模型
779 2
七火山发布Etna文生视频模型
|
2月前
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
99 1
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
|
2月前
|
JSON 算法 Shell
【数据集】以人脸关键点为例讲解:如何通过开源项目快速制作关键点数据集
【数据集】以人脸关键点为例讲解:如何通过开源项目快速制作关键点数据集
80 0
|
10月前
|
人工智能 关系型数据库 Serverless
向量加成,基于ChatGLM6B生成专属图片
基于ChatGLM6B 提供的能力,可以通过在线对话的方式与用户进行交互,接收用户的问题,并根据问题内容做出相应的回答。基于用户上传语料内容,语言大模型会对问题进行理解,并生成相应回答,提供用户所需的各种知识和信息,AI 知识库问答应用可适用于多种场景,例如在线教育、智能客服、信息查询等。
105 0
|
机器学习/深度学习 监控 数据挖掘
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集

热门文章

最新文章