开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

训练GPT-3模型使用的数据集可以包含tgt_txt字段吗?

已解决

我看modelscope上给出的样例只包含了src_txt字段,但是我能不能用包含源文本和目标文本两个字段的数据去训练它,能实现吗?

展开
收起
1451997693938447 2022-11-06 17:22:45 1843 0
1 条回答
写回答
取消 提交回答
  • 采纳回答

    您好,目前GPT-3只支持src_txt字段输入训练,采用auto-regressive方式训练,如果您的数据有输入和输出,可以把输入和输出拼接起来构造成src_txt训练,还可以通过构建prompt的方式串联起来

    比如输入文章,输出摘要,可以把“文章”+“。上面文章的摘要是:”+“摘要”,构造成src_txt输入模型训练

    另外,也推荐采用PALM预训练生成模型,由encoder-decoder架构构成,很适合源文本和目标文本的训练,参考模型页面的训练代码即可:https://modelscope.cn/models/damo/nlp_palm2.0_pretrained_chinese-base/summary

    2022-11-07 15:47:41
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
展心展力MetaApp:基于DeepRec的稀疏模型训练实践 立即下载
《Proxima:多模态向量检索引擎》 立即下载
机器学习中,使用Scikit-Leam简单处理文本数据 立即下载