魔哈镜像迄今最大合成数据集 Cosmopedia

简介: Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。

Cosmopedia

Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。受 Phi1.5 工作的启发,Cosmopedia 的初始版本为合成数据领域的研究奠定了基础。它作为不同主题的综合资源,强调其在后续迭代中进一步增强的潜力。

Cosmopedia分为八个部分,每个部分都源自不同的种子样本。这些分割包括 web_samples_v1 和 web_samples_v2,约占数据集的 75%,源自类似于 RefinedWeb 的内部 Web 数据集。斯坦福分部利用了来自 stanford.edu 的课程大纲,而故事分部则采用了 UltraChat 和 OpenHermes2.5 生成的叙述。此外,WikiHow、OpenStax、KhanAcademy 和 automathtext 拆分涉及与其各自来源相关的提示。

Dataset splits

Prompts都基于使用种子样本(例如网页摘录)的概念,并要求模型生成与该种子样本相关的新内容(教科书、故事、博客文章)。数据集由8个拆分组成,具体取决于拆分中使用的种子数据的来源。下图显示了Cosmopedia中种子数据集、世代格式和受众的分布:
image.png

除了去污染外,Cosmopedia将解释网络样本的主题聚类方法以及我们完善提示的迭代过程。主题聚类 我们的目标是以教科书等更干净的格式生成大量合成数据,涵盖广泛的主题(本质上,在网络上发现的任何有用的东西)

如何在魔哈上使用Cosmopedia

首先魔哈仓库已经完全同步了Cosmopedia数据集,并会在每天早上定期从 HuggingFace上更新最新版本的数据集
image.png

目前有两种方式可以通过魔哈·Moha仓库来加速您下载Cosmopedia数据集

设置魔哈官方地址直接下载数据集

export HF_ENDPOINT=https://moha.xiaoshiai.cn/huggingface

使用Moha专属CDN加速从HuggingFace上下载数据集
image.png

联系我们

关注"晓石AI" 咨询更多问题

目录
相关文章
|
人工智能 测试技术 开发者
最强开源背景去除模型​RMBG v1.4
RMBG v1.4是briaai公司最先进的背景去除模型,它可以将一系列类别和图像类型中有效地将前景与背景切分
1754 0
最强开源背景去除模型​RMBG v1.4
|
IDE Java Linux
Seata常见问题之重新打包以单独用jar来部署如何解决
Seata 是一个开源的分布式事务解决方案,旨在提供高效且简单的事务协调机制,以解决微服务架构下跨服务调用(分布式场景)的一致性问题。以下是Seata常见问题的一个合集
616 1
西门子S7-1200编程实例,比较指令如何使用?
西门子S7-1200中的比较指令包括了值大小比较指令、是否在范围内指令以及有效性无效性检查指令。使用值大小比较指令,可以比较两个数据类型相同的数值的大小。
西门子S7-1200编程实例,比较指令如何使用?
|
编解码 内存技术
四款好用的免费直播编码推流软件
现代生活已经离不开互联网,离不开软件了。 这说法毫不夸张。 比如手机上各种APP眼花缭乱 ,各种行业, 各种功能, 各种Logo, 各种的各种。 没有良好的整理力,是真 的不好意思让别人看到啊。 这些功能各异的APP程序大多数是免费APP。
8028 0
|
9月前
|
监控 Kubernetes Java
最新技术栈驱动的 Java 绿色计算与性能优化实操指南涵盖内存优化与能效提升实战技巧
本文介绍了基于Java 24+技术栈的绿色计算与性能优化实操指南。主要内容包括:1)JVM调优,如分代ZGC配置和结构化并发优化;2)代码级优化,包括向量API加速数据处理和零拷贝I/O;3)容器化环境优化,如K8s资源匹配和节能模式配置;4)监控分析工具使用。通过实践表明,这些优化能显著提升性能(响应时间降低40-60%)同时降低资源消耗(内存减少30-50%,CPU降低20-40%)和能耗(服务器功耗减少15-35%)。建议采用渐进式优化策略。
474 1
|
JavaScript
Threejs实现PMD模型眨眼说话等功能
这篇文章详细介绍了如何在Three.js中实现PMD模型的眨眼和说话等动态效果,通过控制模型的关键帧来模拟面部表情的变化。
705 0
Threejs实现PMD模型眨眼说话等功能
|
自然语言处理 搜索推荐 前端开发
大模型联网搜索的短板与突破之路
本文作者详细分析了当前大模型在联网搜索功能中存在的几个主要问题,并提供了具体的案例和解决方案。
2726 8
大模型联网搜索的短板与突破之路
|
前端开发 JavaScript 安全
Angular AOT 编译大揭秘!详解提升应用启动速度的关键技术,让你的 Angular 应用飞起来!
【8月更文挑战第31天】本文探讨了提升Angular应用性能的关键技术——AOT(提前编译)。文章首先解释了AOT编译的概念,对比JIT(即时编译),说明其在减少应用启动时编译时间方面的优势。接着详细阐述了AOT编译带来的三大好处:提高启动速度、增强安全性和改善代码可维护性。然后,提供了使用AOT编译的具体步骤,包括安装Angular CLI、创建应用、配置AOT选项及构建运行应用等。最后,提醒开发者注意模板语法、依赖注入及第三方库兼容性等问题,并通过一个简单的组件示例展示如何利用AOT编译优化应用。
315 0
|
监控 安全 UED
星型拓扑的缺点是什么?
【8月更文挑战第4天】
1711 16
星型拓扑的缺点是什么?

热门文章

最新文章