开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请问黑盒化加速如何制作mmap类型的预训练数据集?

已解决

请问黑盒化加速如何制作mmap类型的预训练数据集?

展开
收起
felix@ 2023-01-28 07:58:53 1539 1
2 条回答
写回答
取消 提交回答
  • 今天也要加油吖~
    采纳回答

    mmap数据集制作脚本可以参照如下命令:

    python preprocess_data.py \
      --input book_wiki_owtv2_small.json  \
      --output-prefix gpt_small \
      --vocab gpt2-vocab.json \
      --dataset-impl mmap \
      --tokenizer-type GPT2BPETokenizer \
      --merge-file gpt2-merges.txt \
      --append-eod
    
    2023-01-28 10:37:16
    赞同 展开评论 打赏
  • 需要准备一个mmap类型的预训练数据集,这个数据集可以是一个文本文件,也可以是一个图像文件,或者是一个视频文件。然后,使用黑盒化加速工具将这个数据集转换成mmap类型的预训练数据集。最后,将mmap类型的预训练数据集放入模型训练程序中,以便模型可以从中获取数据进行训练。

    2023-01-28 12:37:17
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

热门讨论

热门文章

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载