chatGPT 背后的大语言模型有 1750 亿个参数,有趣的是,用来训练 chatGPT 的语料大致也包含这么多个记号,所以差不多“记住”一个记号需要一个参数,看不到什么数据压缩的效果。牛逼!
五个(类)模型
API 提供了更多的选择和参数, 用 chatGPT 的时候是没法选后面的语言模型的, 而通过 API 你可以在目前的五种语言模型中选取:
- Ada
- Bargage
- Curie
- Davinci
- gpt-3.5-turbo
它们更多是一种人为的命名,并不是每一种模型负责不同类的交互。
前四种模型的主要区别在于大小不同和训练数据不同,从 A 到 D 能力依次上升。 小的模型能力弱一些,但是速度快、计算成本低。API 是按流量收费的,不同的模型单价不同。所以不是说越强的模型越好 - 它们不但更贵,而且更慢。
价格
目前的定价,见 openai.com/pricing
下面是每一千个token的单价:
- Ada $0.0004
- Babbage $0.0005
- Curie $0.002
- Davinci $0.02
- gpt-3.5-turbo $0.002
3.5 turbo是比较划算的,综合考虑价格和能力看。
API 优点
API 访问比网站访问更稳定可靠。没必要每月花 20 美元买升级版的 chatGPT plus,用 API 就够了,前提是你要懂一点编程。目前开放的 API 都不在服务器端保留状态。如果你想让机器记得前几轮说过的话,必须在发请求时把以前的对话内容再发一遍。
比如你以前跟机器已经唠了 4000 个记号了,又用 40 个记号问了一个附加问题,机器的回答就被限制在 4096 - 4000 - 40 = 56 个记号之内了。(这一点在playground页面上也可以看到。)这个太可怜了!
API 缺点
这些模型只能处理 4096 个记号的上下文,也就是说问题和答案加起来不能超过 4096 个记号,大约两千汉字。如果你想让 AI 帮你写情节连贯的长篇小说,现在还很难。
gpt-3.5-turbo 是优选
最后一种 gpt-3.5-turbo 模型是三月一号刚发布的,据说就是原汁原味的 chatGPT 用的模型。它的能力跟 Davinci 相似,但更适用于对话场景。据我测试比 Davinci 快得多,而价格只要 Davinci 的十分之一。