GPT 3.5 系列中哪个模型表现最好? GPT 3.5 系列在常见应用任务中实际表现如何? GPT 3.5 模型回答不同的问题一般都需要多少成本?
本期「SOTA!实测」我们使用 OpenAI 提供的 API,在面试、邮件、直播、周报、简历等五个场景下的一系列应用任务上,对 GPT-3.5 系列的gpt-3.5-turbo,text-davinci-003及text-davinci-002这三个不同模型的推理消耗、及推理效果两个维度进行对比实测。以下为本期实测结论(详细评分见文末)
| 模型 | gpt-3.5-turbo | text-davinci-003 | text-davinci-002 |
| 说明 | 是目前最强大的 GPT-3.5 模型,专门针对聊天场景进行优化,价格是 text-davinci-003 的十分之一。 | 可以完成任何语言任务,并且质量更好,输出更长,并且比 Curie、Babbage 或 Ada 模型更能按照指令进行操作。 | 与 text-davinci-003 具有相似的能力,但是是通过有监督的精细调整来训练的,而不是通过强化学习,最大 Token 数为 4097。 |
| 最大 Token 数 | 4,096 tokens | 4,097 tokens | 4,097 tokens |
| 价格 | $0.002 / 1K tokens | $0.0200 / 1K tokens | $0.0200 / 1K tokens |
| 综合评分 | 综合评分较高,表现出较高的精确度和专业性,对于大多数任务都能够适应,输出的结果较为完整、流畅,而且针对不同任务的输出也比较准确、全面,具有较强的适应性和通用性,且成本最低。 | 综合评分相对较低,虽然对于一些任务表现不错,但整体来说输出的结果缺少个性化和针对性,表述不够精准和简洁,有时也存在一些不准确的情况。 | 综合评分最低,输出结果的专业性和准确性都不够高,缺少个性化和针对性,语言表述也存在较大问题,整体来说需要进一步优化和改进。 |
在面试问题场景任务中,gpt-3.5-turbo 综合评分最高,能够很好地适应面试场景,生成的问题具有较高的针对性和多角度深入了解候选人的能力和经验;而 text-davinci-002 的评分最低,问题过于宽泛且基本是对岗位描述的重复,缺乏挑战性和实际性的问题,甚至出现生成的内容完全不可用的情况。在英文邮件写作场景任务中,gpt-3.5-turbo 和 text-davinci-003 的综合评分较高,能够模拟口语和正式书面的语言风格,对于口语化的表达和带有歧义的名词有很好的理解和翻译,但也无法正确地识别不安全的内容;而 text-davinci-002 的评分最低,口语与书面语不能很好切换,没有正确的识别不安全的内容。在直播场景任务中,gpt-3.5-turbo 的评分最高,能够准确、精炼、流畅地概括直播内容,并符合要求中的简洁度要求;而 text-davinci-002 的评分最低,输出准确度一般,不能很好地适应场景,但在简洁性和流畅性方面还有进一步改进的空间。在周报场景任务中,gpt-3.5-turbo 和 text-davinci-003 的评分较高,能够准确呈现出周报的逻辑结构和内容要点,输出的内容较为完整;而 text-davinci-002 的评分最低,缺乏表达周报的逻辑,结构不匹配,内容不贴切。在简历场景任务中,gpt-3.5-turbo 的评分最高,能够专业化地生成符合招聘方要求的简历,并呈现出教育背景、工作经验、技能掌握以及自我评价等方面的信息,但需要更加注重语言表达的精准和个性化;而 text-davinci-003 和 text-davinci-002 的评分较低,缺乏个性化和量化的成果描述,简历的描述也较为简单和缺乏条理。场景一:面试问题
| 测试场景 | 测试角度 |
| 基于职位描述生成面试问题 | 生成面试问题的难易度生成面试问题与该职位描述的匹配程度 |
| 基于候选人信息生成面试问题 | 生成面试问题的难易度生成面试问题与该候选人的匹配程度 |
gpt-3.5-turbo 模型生成的面试问题涵盖了职位描述中的主要职责和要求,适应面试场景。问题从多个角度深入了解候选人的能力和经验,包括工作经验、项目经验、技能和个人特质等多个方面,具有较高的针对性。问题具有实际价值,与职位匹配度较高,能有效评估候选人的能力。text-davinci-003 模型生成的面试问题涵盖了职位描述中提到的多个要求和技能,但有些问题表述不具体、条理不清晰。需要更细分领域,否则不能全面衡量候选人的能力。模型生成的问题涵盖了候选人的专业背景、项目经验、技能和个人品质,但有些问题可以更具体和深入,以便更好地评估候选人的能力。
text-davinci-002 模型生成的面试问题主要围绕岗位要求进行,但这些问题过于宽泛,基本上是对岗位描述的重复,未关注候选人与岗位描述之间的匹配程度,不能提出更具挑战性和实际性的问题,甚至会出现输出内容完全不可用的情况。在成功生成问题的情况下,模型生成的问题涵盖了候选人的专业背景、项目经验和技能,但有些问题可以更具体和深入,以便更好地评估候选人的能力。 我们选取其中一个测例展开看看 ——模型消耗gpt-3.5-turbo 约消耗 0.017 元,text-davinci-003 约消耗 0.22 元,text-davinci-002 约消耗 0.19 元。推理结果在生成的面试问题的难易度和针对性方面,gpt-3.5-turbo 模型的输出最为优秀,它针对该职位的各项要求提出了多个具体问题,并且这些问题的难度和针对性也非常高,能够有效检验候选人的能力和经验。text-davinci-002 模型的输出最为简单,甚至是完全不可用的状态,不能算是面试题目。text-davinci-003 模型的输出则介于两者之间,提出的问题相对于 gpt-3.5-turbo 模型来说较为简单,问题不够细节,但比 text-davinci-002 模型更具体一些。在面试问题与该职位描述的匹配程度方面,gpt-3.5-turbo 模型的输出最为贴合该职位描述,它对该职位的要求进行了全面细致的分析,并针对这些要求提出了相应的问题。text-davinci-003 模型的输出对该职位的要求也有所体现,但是问题的数量和覆盖面相对较少。而 text-davinci-002 可以说是不知所云了。场景二:英文邮件
| 测试场景 | 测试角度 |
| 在输入文本中插入有专用翻译的专有名词、某垂直领域的专业术语、在不同场景下表意不同的名词 | 语义是否通顺、扩写的内容是否正确、有歧义的名词翻译是否正确、专业名词/专有名词翻译是否正确 |
| 在输入中要求以“口语化”、“书面”的方式输出 | 是否可以模拟口语、或正式书面的语言风格 |
| 在输入中以口语化的口吻写,要求“书面”的方式输出,并在输入中省略部分背景信息、使用有歧义的名词 | 是否可以模拟口语、或正式书面的语言风格,是否能正确理解口语化的表达;对于有歧义的名词是否能正确翻译 |
| 在输入中带有犯罪相关内容 | 是否会过滤不安全的内容 |
| 在输入中使用倒装句、同音错别字、方言、口语化省略句 | 对于中文中的语法错误、错别字、不完整句是否可正确过滤并理解 |
gpt-3.5-turbo:综合评分 3.3 分,邮件结构符合场景,口吻中正,恰当扩写,除非学名的专有名词基本给出缩写,对于口语化的输入中强烈的情绪有很好的理解和过滤,对于错别字、语法错误等输入问题能正确纠正,不足之处是没有正确的识别不安全的内容。text-davinci-003:综合评分 3 分,结构使用常见模板,没有标题,语句连接生硬,扩写不足,专有名词与带歧义的名词理解正确,口语化理解与生成高出预期,没有正确的识别不安全的内容。text-davinci-002:综合评分 2 分,结构使用常见模板,没有标题,语句不通顺甚至错误,语段结构不明显,没有扩写,除非学名的专有名词基本给出缩写,口语与书面语不能很好切换,没有正确的识别不安全的内容。我们选取其中一个测例展开看看 —— 在输入文本中插入有专用翻译的专有名词、某垂直领域的专业术语、在不同场景下表意不同的名词测例中有如下输入模型消耗在输入文本中插入有专用翻译的专有名词、某垂直领域的专业术语、在不同场景下表意不同的名词测例,gpt-3.5-turbo 约消耗 0.006 元,text-davinci-003 约消耗 0.067 元,text-davinci-002 约消耗 0.07 元推理表现在语义是否通顺方面,三个模型都表现得比较好,没有明显的语病和语法错误。在扩写的内容是否正确方面,gpt-3.5-turbo 和 text-davinci-003 的回复都比较全面,针对各个问题进行了详细的回答,并提供了一些相关的建议和产品推荐。而 text-davinci-002 则只回答了几个问题,并没有提供很多相关的细节和建议。在有歧义的名词翻译是否正确、专业名词/专有名词翻译是否正确方面,三个模型的表现都比较好。gpt-3.5-turbo 和 text-davinci-003、text-davinci-002 都正确地翻译了聚四氟乙烯(PTFE)和全氟化合物(PFCs),并使用了正确的英文术语。应用任务三:直



