开发者社区 问答 正文

GPT-3的数据集是如何构建的?

GPT-3的数据集是如何构建的?

展开
收起
夹心789 2024-05-30 13:53:02 102 分享 版权
1 条回答
写回答
取消 提交回答
  • GPT-3的数据集构建过程包括:使用之前的reddit数据作为正例,Common Crawl作为负例训练二分类器来过滤掉不好的网页;使用lsh算法去重;增加已知的高质量数据,如BERT、GPT1、GPT2的数据集;在真实采样时赋予一定权重进行采样,因为Common Crawl数据集仍然较脏。

    2024-05-30 14:36:03
    赞同 2 展开评论
问答标签:
问答地址: