实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?(1)

简介: 实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?


GPT 3.5 系列中哪个模型表现最好? GPT 3.5 系列在常见应用任务中实际表现如何? GPT 3.5 模型回答不同的问题一般都需要多少成本?

本期SOTA!实测我们使用 OpenAI 提供的 API,在面试、邮件、直播、周报、简历等五个场景下的一系列应用任务上, GPT-3.5 系列的gpt-3.5-turbo,text-davinci-003及text-davinci-002这三个不同模型的推理消耗、及推理效果两个维度进行对比实测。以下为本期实测结论(详细评分见文末

模型 gpt-3.5-turbo text-davinci-003 text-davinci-002
说明 是目前最强大的 GPT-3.5 模型,专门针对聊天场景进行优化,价格是 text-davinci-003 的十分之一。 可以完成任何语言任务,并且质量更好,输出更长,并且比 Curie、Babbage 或 Ada 模型更能按照指令进行操作。 与 text-davinci-003 具有相似的能力,但是是通过有监督的精细调整来训练的,而不是通过强化学习,最大 Token 数为 4097。
最大 Token 数 4,096 tokens 4,097 tokens 4,097 tokens
价格 $0.002 / 1K tokens $0.0200 / 1K tokens $0.0200 / 1K tokens
综合评分 综合评分较高,表现出较高的精确度和专业性,对于大多数任务都能够适应,输出的结果较为完整、流畅,而且针对不同任务的输出也比较准确、全面,具有较强的适应性和通用性,且成本最低。 综合评分相对较低,虽然对于一些任务表现不错,但整体来说输出的结果缺少个性化和针对性,表述不够精准和简洁,有时也存在一些不准确的情况。 综合评分最低,输出结果的专业性和准确性都不够高,缺少个性化和针对性,语言表述也存在较大问题,整体来说需要进一步优化和改进。

在面试问题场景任务中,gpt-3.5-turbo 综合评分最高,能够很好地适应面试场景,生成的问题具有较高的针对性和多角度深入了解候选人的能力和经验;而 text-davinci-002 的评分最低,问题过于宽泛且基本是对岗位描述的重复,缺乏挑战性和实际性的问题,甚至出现生成的内容完全不可用的情况。在英文邮件写作场景任务中,gpt-3.5-turbo 和 text-davinci-003 的综合评分较高,能够模拟口语和正式书面的语言风格,对于口语化的表达和带有歧义的名词有很好的理解和翻译,但也无法正确地识别不安全的内容;而 text-davinci-002 的评分最低,口语与书面语不能很好切换,没有正确的识别不安全的内容。在直播场景任务中,gpt-3.5-turbo 的评分最高,能够准确、精炼、流畅地概括直播内容,并符合要求中的简洁度要求;而 text-davinci-002 的评分最低,输出准确度一般,不能很好地适应场景,但在简洁性和流畅性方面还有进一步改进的空间。在周报场景任务中,gpt-3.5-turbo 和 text-davinci-003 的评分较高,能够准确呈现出周报的逻辑结构和内容要点,输出的内容较为完整;而 text-davinci-002 的评分最低,缺乏表达周报的逻辑,结构不匹配,内容不贴切。在简历场景任务中,gpt-3.5-turbo 的评分最高,能够专业化地生成符合招聘方要求的简历,并呈现出教育背景、工作经验、技能掌握以及自我评价等方面的信息,但需要更加注重语言表达的精准和个性化;而 text-davinci-003 和 text-davinci-002 的评分较低,缺乏个性化和量化的成果描述,简历的描述也较为简单和缺乏条理。场景一:面试问题

测试场景 测试角度
基于职位描述生成面试问题 生成面试问题的难易度生成面试问题与该职位描述的匹配程度
基于候选人信息生成面试问题 生成面试问题的难易度生成面试问题与该候选人的匹配程度

gpt-3.5-turbo 模型生成的面试问题涵盖了职位描述中的主要职责和要求,适应面试场景。问题从多个角度深入了解候选人的能力和经验,包括工作经验、项目经验、技能和个人特质等多个方面,具有较高的针对性。问题具有实际价值,与职位匹配度较高,能有效评估候选人的能力。text-davinci-003 模型生成的面试问题涵盖了职位描述中提到的多个要求和技能,但有些问题表述不具体、条理不清晰。需要更细分领域,否则不能全面衡量候选人的能力。模型生成的问题涵盖了候选人的专业背景、项目经验、技能和个人品质,但有些问题可以更具体和深入,以便更好地评估候选人的能力。
text-davinci-002 模型生成的面试问题主要围绕岗位要求进行,但这些问题过于宽泛,基本上是对岗位描述的重复,未关注候选人与岗位描述之间的匹配程度,不能提出更具挑战性和实际性的问题,甚至会出现输出内容完全不可用的情况。在成功生成问题的情况下,模型生成的问题涵盖了候选人的专业背景、项目经验和技能,但有些问题可以更具体和深入,以便更好地评估候选人的能力。 我们选取其中一个测例展开看看 ——模型消耗gpt-3.5-turbo 约消耗 0.017 元,text-davinci-003 约消耗 0.22 元,text-davinci-002 约消耗 0.19 元。推理结果在生成的面试问题的难易度和针对性方面,gpt-3.5-turbo 模型的输出最为优秀,它针对该职位的各项要求提出了多个具体问题,并且这些问题的难度和针对性也非常高,能够有效检验候选人的能力和经验。text-davinci-002 模型的输出最为简单,甚至是完全不可用的状态,不能算是面试题目。text-davinci-003 模型的输出则介于两者之间,提出的问题相对于 gpt-3.5-turbo 模型来说较为简单,问题不够细节,但比 text-davinci-002 模型更具体一些。在面试问题与该职位描述的匹配程度方面gpt-3.5-turbo 模型的输出最为贴合该职位描述,它对该职位的要求进行了全面细致的分析,并针对这些要求提出了相应的问题。text-davinci-003 模型的输出对该职位的要求也有所体现,但是问题的数量和覆盖面相对较少。而 text-davinci-002 可以说是不知所云了。场景二:英文邮件

测试场景 测试角度
在输入文本中插入有专用翻译的专有名词、某垂直领域的专业术语、在不同场景下表意不同的名词 语义是否通顺、扩写的内容是否正确、有歧义的名词翻译是否正确、专业名词/专有名词翻译是否正确
在输入中要求以“口语化”、“书面”的方式输出 是否可以模拟口语、或正式书面的语言风格
在输入中以口语化的口吻写,要求“书面”的方式输出,并在输入中省略部分背景信息、使用有歧义的名词 是否可以模拟口语、或正式书面的语言风格,是否能正确理解口语化的表达;对于有歧义的名词是否能正确翻译
在输入中带有犯罪相关内容 是否会过滤不安全的内容
在输入中使用倒装句、同音错别字、方言、口语化省略句 对于中文中的语法错误、错别字、不完整句是否可正确过滤并理解

gpt-3.5-turbo:综合评分 3.3 分,邮件结构符合场景,口吻中正,恰当扩写,除非学名的专有名词基本给出缩写,对于口语化的输入中强烈的情绪有很好的理解和过滤,对于错别字、语法错误等输入问题能正确纠正,不足之处是没有正确的识别不安全的内容。text-davinci-003:综合评分 3 分,结构使用常见模板,没有标题,语句连接生硬,扩写不足,专有名词与带歧义的名词理解正确,口语化理解与生成高出预期,没有正确的识别不安全的内容。text-davinci-002:综合评分 2 分,结构使用常见模板,没有标题,语句不通顺甚至错误,语段结构不明显,没有扩写,除非学名的专有名词基本给出缩写,口语与书面语不能很好切换,没有正确的识别不安全的内容。我们选取其中一个测例展开看看 —— 在输入文本中插入有专用翻译的专有名词、某垂直领域的专业术语、在不同场景下表意不同的名词测例中有如下输入模型消耗在输入文本中插入有专用翻译的专有名词、某垂直领域的专业术语、在不同场景下表意不同的名词测例,gpt-3.5-turbo 约消耗 0.006 元,text-davinci-003 约消耗 0.067 元,text-davinci-002 约消耗 0.07 元推理表现在语义是否通顺方面,三个模型都表现得比较好,没有明显的语病和语法错误。在扩写的内容是否正确方面,gpt-3.5-turbo 和 text-davinci-003 的回复都比较全面,针对各个问题进行了详细的回答,并提供了一些相关的建议和产品推荐。而 text-davinci-002 则只回答了几个问题,并没有提供很多相关的细节和建议。在有歧义的名词翻译是否正确、专业名词/专有名词翻译是否正确方面,三个模型的表现都比较好。gpt-3.5-turbo 和 text-davinci-003、text-davinci-002 都正确地翻译了聚四氟乙烯(PTFE)和全氟化合物(PFCs),并使用了正确的英文术语。应用任务三:直

相关文章
|
6月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
321 17
|
4月前
|
SQL 缓存 Java
MyBatis场景面试题
MyBatis与MyBatisPlus均属ORM框架,前者擅长复杂SQL及动态查询,后者封装API简化单表操作。常用XML标签如if、foreach提升SQL灵活性。MyBatis支持一级(SqlSession级)与二级(NameSpace级)缓存,提升查询效率。#{}防SQL注入,${}用于动态表名等场景。
269 62
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
7月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
412 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
6月前
|
数据安全/隐私保护 开发者 UED
CodeBuddy 开发者福音!在线简历0元搞定,再也不怕面试翻车!
本文介绍如何用CodeBuddy和Edgeone Page MCP制作高质量在线简历,告别传统简历的局限。通过CodeBuddy生成简历工具,支持高亮亮点、添加链接与代码仓库;借助Edgeone Page MCP一键发布,实现访问控制与实时更新。该方案不依赖Word/PDF,支持技术项目展示,响应式布局适配多设备,为开发者打造专业“技术名片”。立即尝试,让HR第一眼记住你!
|
8月前
|
机器学习/深度学习 人工智能 JSON
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。
1021 18
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
|
8月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
458 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
8月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
474 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈

热门文章

最新文章