问题一:GPT-1如何优化目标函数?如何做模型微调?
GPT-1如何优化目标函数?如何做模型微调?
参考回答:
使用对数最大似然函数来计算loss,并使用transformer的解码器来处理文本数据,其中引入了position embedding来编码位置信息。
GPT-1在微调时使用的是带有标号的数据集。模型根据输入的序列x预测其标号y,对于不同的NLP下游任务,需要调整输入序列的形式来匹配任务需求。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/633723
问题二:GPT-1如何根据任务的不同改变下游输入?
GPT-1如何根据任务的不同改变下游输入?
参考回答:
GPT-1通过引入特殊字符(如start、delim、extract)来标记不同的NLP任务。例如,分类任务输出分类类别,蕴含任务输出是否蕴含关系,相似性任务输出相似或不相似,多选题任务输出答案的置信度。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/633726
问题三:GPT-2主要解决的问题是什么?
GPT-2主要解决的问题是什么?
参考回答:
GPT-2主要解决的问题是当模型被别人用更大的数据集和参数量打败时,应该怎么做。GPT-2采用zero-shot设定,即不需要下游任务的任何标注信息或额外的模型训练。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/633727
问题四:GPT-1和GPT-2的区别是什么?
GPT-1和GPT-2的区别是什么?
参考回答:
GPT-1在构建下游任务输入时引入了特殊字符,这些字符在预训练阶段模型没有见过,但在微调阶段可以学习到。而GPT-2为了做zero-shot,在构建下游任务输入时不能引入模型未见过的符号,输入形式更接近自然语言。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/633728
问题五:GPT-2的数据集是什么?
GPT-2的数据集是什么?
参考回答:
GPT-2的数据集选用的是reddit里面已经被人工筛选出的有意义的,并且具有至少3karma值的网页。整个数据集包含大约800万个文本,总共约40GB的文字。
关于本问题的更多回答可点击原文查看: