备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

请问黑盒化加速如何制作mmap类型的预训练数据集？

已解决

请问黑盒化加速如何制作mmap类型的预训练数据集？

展开

收起

felix@ 2023-01-28 07:58:53 1573 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

晨光永不消逝

今天也要加油吖~

采纳回答

mmap数据集制作脚本可以参照如下命令：

python preprocess_data.py \
  --input book_wiki_owtv2_small.json  \
  --output-prefix gpt_small \
  --vocab gpt2-vocab.json \
  --dataset-impl mmap \
  --tokenizer-type GPT2BPETokenizer \
  --merge-file gpt2-merges.txt \
  --append-eod

2023-01-28 10:37:16

赞同展开评论

认真学习的heart

需要准备一个mmap类型的预训练数据集，这个数据集可以是一个文本文件，也可以是一个图像文件，或者是一个视频文件。然后，使用黑盒化加速工具将这个数据集转换成mmap类型的预训练数据集。最后，将mmap类型的预训练数据集放入模型训练程序中，以便模型可以从中获取数据进行训练。

2023-01-28 12:37:17

赞同展开评论

问答分类：

人工智能平台 PAI

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

请问下我访问接口不通什么原因 Provisional headers are shown

3213

0

0

购买阿里国外的云服务器是否可以访问谷歌？

82751

47

0

sql server的用户名和密码怎么查啊？

37002

21

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60546

30

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

132205

28

0

this xml file does not appear to have any style in

51136

10

0

OSS的endpoint如何查看

37187

6

0

配置了安全组规则，端口还是无法访问

33091

25

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3266

1

0

重启Docker后报错：Error response from daemon

1943

0

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

（Pandas）Python做数据处理必选框架之一！（一）：介绍Pandas中的两个数据结构；刨析Series：如何访问数据；数据去重、取众数、总和、标准差、方差、平均值等；判断缺失值、获取索引...

QuickSSO有哪些高级功能

ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍

企业网站模板网站源码下载网站源码建站

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

使用通义灵码时，对话框字体怎么设置？

阿里云的镜像上搜不到机器学习PAI的input用的common_io为什么？

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

为什么我的天池notebook中，无法创建notebook文件，也无法显示我的天池文档等内容。

机器学习PAI这里的model_path应该填哪个path呢？

机器学习PAI的Prophet模型训练后怎么导出保存、再导入进行预测？

机器学习PAI模型在验证集上的 auc 很高，但是 gauc 很低是什么原因呢？

机器学习PAI这个GPU：ABI=0是什么意思啊？

在api调用夸克搜索时，遇到权限不足问题

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列六】文本分析算法实现新闻自动分类

【玩转数据系列一】人口普查统计案例

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

【玩转数据系列三】利用图算法实现金融行业风控

机器学习PAI全新功效——实时新闻热点Online Learning实践

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

基于协同过滤算法的推荐

FM算法介绍

【教程】5分钟在PAI算法市场发布自定义算法

展开全部

还有其他疑问?