魔哈镜像迄今最大合成数据集 Cosmopedia

简介: Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。

Cosmopedia

Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。受 Phi1.5 工作的启发,Cosmopedia 的初始版本为合成数据领域的研究奠定了基础。它作为不同主题的综合资源,强调其在后续迭代中进一步增强的潜力。

Cosmopedia分为八个部分,每个部分都源自不同的种子样本。这些分割包括 web_samples_v1 和 web_samples_v2,约占数据集的 75%,源自类似于 RefinedWeb 的内部 Web 数据集。斯坦福分部利用了来自 stanford.edu 的课程大纲,而故事分部则采用了 UltraChat 和 OpenHermes2.5 生成的叙述。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 拆分涉及与其各自来源相关的提示。

Dataset splits

Prompts都基于使用种子样本(例如网页摘录)的概念,并要求模型生成与该种子样本相关的新内容(教科书、故事、博客文章)。数据集由8个拆分组成,具体取决于拆分中使用的种子数据的来源。下图显示了Cosmopedia中种子数据集、世代格式和受众的分布:
image.png

除了去污染外,Cosmopedia将解释网络样本的主题聚类方法以及我们完善提示的迭代过程。主题聚类 我们的目标是以教科书等更干净的格式生成大量合成数据,涵盖广泛的主题(本质上,在网络上发现的任何有用的东西)

如何在魔哈上使用Cosmopedia

首先魔哈仓库已经完全同步了Cosmopedia数据集,并会在每天早上定期从 HuggingFace上更新最新版本的数据集
image.png

目前有两种方式可以通过魔哈·Moha仓库来加速您下载Cosmopedia数据集

设置魔哈官方地址直接下载数据集

export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface

使用Moha专属CDN加速从HuggingFace上下载数据集
image.png

联系我们

关注"晓石AI" 咨询更多问题

目录
相关文章
|
人工智能 测试技术 开发者
最强开源背景去除模型​RMBG v1.4
RMBG v1.4是briaai公司最先进的背景去除模型,它可以将一系列类别和图像类型中有效地将前景与背景切分
1831 0
最强开源背景去除模型​RMBG v1.4
|
IDE Java Linux
Seata常见问题之重新打包以单独用jar来部署如何解决
Seata 是一个开源的分布式事务解决方案,旨在提供高效且简单的事务协调机制,以解决微服务架构下跨服务调用(分布式场景)的一致性问题。以下是Seata常见问题的一个合集
631 1
|
4月前
|
存储 供应链 数据可视化
大模型应用:面向结构化表格的 RAG 实践:技术架构与特性解析.26
本文提出面向结构化表格的RAG新模式,突破传统RAG将表格转为纯文本导致语义丢失、多表融合低效、版本兼容性差等瓶颈。通过结构化解析、元数据增强、向量索引优化与精细化检索,实现行列语义保留、跨表关联查询及本地轻量化部署,显著提升财务、政务等场景下Excel/CSV数据的检索精度与问答质量。
435 11
西门子S7-1200编程实例,比较指令如何使用?
西门子S7-1200中的比较指令包括了值大小比较指令、是否在范围内指令以及有效性无效性检查指令。使用值大小比较指令,可以比较两个数据类型相同的数值的大小。
西门子S7-1200编程实例,比较指令如何使用?
|
编解码 内存技术
四款好用的免费直播编码推流软件
现代生活已经离不开互联网,离不开软件了。 这说法毫不夸张。 比如手机上各种APP眼花缭乱 ,各种行业, 各种功能, 各种Logo, 各种的各种。 没有良好的整理力,是真 的不好意思让别人看到啊。 这些功能各异的APP程序大多数是免费APP。
8091 0
|
10月前
|
监控 Kubernetes Java
最新技术栈驱动的 Java 绿色计算与性能优化实操指南涵盖内存优化与能效提升实战技巧
本文介绍了基于Java 24+技术栈的绿色计算与性能优化实操指南。主要内容包括:1)JVM调优,如分代ZGC配置和结构化并发优化;2)代码级优化,包括向量API加速数据处理和零拷贝I/O;3)容器化环境优化,如K8s资源匹配和节能模式配置;4)监控分析工具使用。通过实践表明,这些优化能显著提升性能(响应时间降低40-60%)同时降低资源消耗(内存减少30-50%,CPU降低20-40%)和能耗(服务器功耗减少15-35%)。建议采用渐进式优化策略。
538 2
|
JavaScript
Threejs实现PMD模型眨眼说话等功能
这篇文章详细介绍了如何在Three.js中实现PMD模型的眨眼和说话等动态效果,通过控制模型的关键帧来模拟面部表情的变化。
774 0
Threejs实现PMD模型眨眼说话等功能
|
监控 安全 UED
星型拓扑的缺点是什么?
【8月更文挑战第4天】
1785 16
星型拓扑的缺点是什么?
|
关系型数据库 MySQL
MySql 计算两个日期的时间差函数
MySql计算两个日期的时间差函数 MySql计算两个日期的时间差函数TIMESTAMPDIFF用法: 语法: TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2) 说明: 返回日期或日期时间表达式datetime_expr1 和datetime_expr2the 之间的整数差。
13817 1

热门文章

最新文章