ChatGPT3.5 和 4.0真的使用差别很大嘛?

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: ChatGPT4.0、GPT、ChatGPT Plus

1. 微软的测试结果

这部分测试结果来自于微软针对GPT-4的研究论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4 》。这篇论文测的是GPT-4的一个早期版本,它在训练阶段仍只用了文本数据,没有图像。所以从训练数据的类型来看,它和ChatGPT是一致的。

1.1 视觉能力

GPT-4的一个强大能力是它从纯文本中产生了视觉概念,但ChatGPT没有这种能力。

第一个测试方法是让模型用SVG(一种简易的图像格式)生成“汽车”、“卡车”、“猫”和“狗”。GPT-4和ChatGPT生成的图像如图1和图2所示。

1706499885756.png

GPT-4生成的汽车、卡车、猫和狗

1706499957484.jpg

ChatGPT生成的汽车、卡车、猫和狗

要注意,GPT-4和ChatGPT在训练中都没有使用图像。但GPT-4能够较为准确地理解了一些基础图像的概念,而ChatGPT完全不行。

第二个测试方法是让模型用英文字母来画火柴人:用字母O作为头,用Y作为身体和手臂,用H作为腿。

1706499999779.jpg

图中 GPT-4用字母画火柴人。左图:让GPT-4用字母O作为头,用Y作为身体和手臂,用H作为腿画出的火柴人;中图:告诉GPT-4身子太长了,头太歪了后,GPT-4做出的调整;右图:让GPT-4画上衣服和裤子。

GPT-4画出来的火柴人如图3中最左侧图所示。当告诉GPT-4身子太长了后,GPT-4对火柴人进行调整后的图如图4中图所示。这个新的火柴人基本正确。最后让GPT-4对火柴人加上衣服和裤子,如图4中右图所示。

而ChatGPT画出来的火柴人是这样:

1706500019531.jpg

图中 ChatGPT用字母画火柴人。左图:让ChatGPT用字母O作为头,用Y作为身体和手臂,用H作为腿画出的火柴人;右图:让ChatGPT画上衣服和裤子

显而易见,ChatGPT对图像基本没有概念。

1.2 代码能力

论文中有很多复杂的例子,比如让GPT-4按照文字描述写一个PyTorch的优化器;让GPT-4对一段代码进行单步运行;让GPT-4对一段伪代码进行单步运行并分析等等。在所有这些测试中,GPT-4都明显优于ChatGPT。这里挑一个简单一点的示例,代码也比较短,如下图所示。

1706500055733.jpg

图中 给定两个结构体,让GPT-4和ChatGPT分析它们的内存占用量。图中黄色区域为非常深刻的分析;红色区域为错误分析。

结构体x和结构体y的成员变量相同,但它们的顺序不同。GPT-4准确地知道结构体占用内存量与对齐规则有关,并给出了一个具体地示例。该示例假设以4-byte进行对齐。那么对于结构体x,它的第一个char a虽然只占1-byte,但因为int b需要对齐地址,所以char a实际占用了4-byte。同理,虽然char c也只占用1-byte,但因结构体的大小必须为4的倍数,所以char c也要占4-byte。

对于结构体y,int b占4-byte,char a占1-byte(因为char a的开销为1-byte,小于对齐的4-byte,所以按1-byte对齐即可),char b占1-byte,总共6-byte。但因结构体大小必须为4的倍数,所以总开销为8-byte。

而ChatGPT显然在胡说八道。

1.3 数学计算能力

先看一道应用题,原文如下:

题目大致如下。有一群兔子,在每年年初时,它们的数量为变为原来的a倍。在每年年底时,这群兔子中有b只兔子会被抓走。假设最开始有x只兔子,三年后兔子总数时27x - 26,求a和b。

GPT-4和ChatGPT的解答分别如下:

1706500115179.jpg

1706500135586.png

GPT-4和ChatGPT对“兔子问题”的解答

很容易看到,GPT-4答的非常好。而ChatGPT基本没理解到题目的意思。

1.4 工具使用能力

不论是GPT-4还是ChatGPT,它们的缺陷都非常明显:

  • 无法获取及时信息;
  • 数值计算容易出错;
  • 一些简单且偏常识类的任务容易出错。

论文作者们通过一个例子来说明了GPT-4和ChatGPT存在的上述2个明显问题,如下图所示。

1706500230187.jpg

图9 GPT-4和ChatGPT均出错的2个简单示例

第一个问题关于及时信息:美国现在总统是谁?

GPT-4的回答明显错误(特朗普),而ChatGPT表现地更合理,直接回答说它的知识只到2021年。

第二个问题关于数值计算:34324 * 2432的平方根

正确答案是9136.51。GPT-4和ChatGPT都错的离谱。

2. OpenAI的测试结果

这一部分结果来自OpenAI的GPT-4论文。

第一个测试是人类参与的专业考试,测试结果如下图所示。

1706500366523.jpg

人类专业考试测试

图中的柱状表示百分位数。比如,第六列的Uniform Bar Exam(律师资格考试),ChatGPT(GPT3.5)大概是垫底的10%(蓝色柱子),而GPT-4是最高的10%(绿色柱子)。图中浅绿色表示没有视觉能力的GPT-4(没有用图像数据训练),深绿色表示有视觉能力的GPT-4。

第二个测试结果是传统的“刷榜”:在一些标准的数据集上测试GPT-4的能力。结果如下。

1706500389628.jpg

图14 GPT-4和ChatGPT的刷榜表现

最左侧是数据集和任务的描述。结果的第一列和第二列分别是GPT-4和ChatGPT(GPT3.5)的结果。非常明显,GPT-4的能力强太多。

3. 测试用例

这部分列举两个自己写的测试用例,这些用例涉及的场景GPT可能会比现有方法更优。

3.1 推荐

GPT对场景、上下文的理解非常深刻,因此想到的第一个场景就是让它代替推荐算法来做推荐。当然推荐本身的范畴非常大,这里以商品为例,测一下GPT对场景的理解能力。

用例设计:小明购买了新房,所以他在过去一段时间里购买了很多居家用品。测试GPT能否推测出小明当前的生活状态(即将入住新家或准备搬家)。

ChatGPT的结果如下:

1706500417753.jpg

ChatGPT4.0的结果如下:

1706500446019.jpg

GPT-4显然对场景的理解更加深刻。但它仍然过于强调了3月8日这一天的鲜花(更可能是妇女节送花)。

虽然还不完美,但GPT-4一定会使现有的推荐算法、模式(电商、短视频等等)发生巨大变化。

3.2 实体抽取

实体抽取指从文本中抽取人名、地址、机构名等等使用者感兴趣的内容。实体抽取是NLP领域一项非常基础且重要的任务,具有广泛的实际用途。

下面是从今日头条上随便贴了一段新闻(侵删):

大家都知道,美国之所以能肆意收割世界财富,最主要的原因就是其拥有美元、军事和科技三大霸权。这些霸权让美国在全球范围内拥有巨大的影响力,也让其成为了国际舞台上的主角。不可否认,手握三大霸权的美国确实会让很多国家和地区甘愿臣服。但同时也会有个别国家会做出反抗,就比如俄罗斯和中国。尤其是中国,在经历了改革开放的大浪淘沙之后,近几年来我国在科技领域迎来了新一轮的爆发。无论是在航空航天方面,还是在5G通讯、人工智能等方面,我国都处于领先地位。与此同时,我国还涌现出了一大批高科技企业,比如华为、大疆、龙芯中科、长江存储等。其中华为在5G通讯领域的强势崛起,动摇了美“科技霸权”的根基。为了继续收割世界财富,美国对华为等中企进行了毫无底线的制裁,可结果却得不偿失,我们的企业非但没有倒下,反而越战越勇,打赢了一场又一场漂亮的“攻坚战”。反观美国半导体市场可谓是一片狼藉,可以说到处都是“断壁残垣”。高通、苹果、AMD等美科技企业不是面临市值腰斩,就是面临利润和营收双双下滑,甚至还开启了上万规模的裁员浪潮。

我的输入是这样:

1706500481198.jpg

实体识别能力测试

ChatGPT的输出:

28ceb70a49844891cafe0d69ece6e4f.png

ChatGP没有理解到我希望的输出格式。并且成语这一部分不太理想。

be4ec6bf7fc596b9c8b6ddb1662e1a6.png

实体识别GPT-4的输出

GPT-4完全理解输出格式,并且回答的比较好。(注:如果在输入中把“包括国外公司”去掉,GPT-4会漏掉高通、苹果和AMD,但ChatGPT没有这个问题)

最后

光是在推荐和实体抽取这两类任务上的优异表现,就可以设计出很多GPT-4可用的场景。好了,如果大家想自己试下ChatGPT4.0的效果可以往下看

传送门:http://fangze666.com/

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
机器学习/深度学习 存储 JSON
chatgpt说它有上千亿的参数,是什么意思?
chatgpt说它有上千亿的参数,是什么意思?
1280 0
|
4天前
|
存储 并行计算
小技巧大功效,仅阅读两次提示让循环语言模型超越Transformer++
【8月更文挑战第27天】斯坦福与布法罗大学的研究显示,通过"Just-Read-Twice"(JRT)策略,循环语言模型(RNNs)在多项任务上的表现超越了行业标杆Transformer++模型。JRT策略让RNNs在处理信息时进行两次读取,有效解决长上下文记忆难题,显著提升了性能。实验覆盖FDA、SQUAD等多个任务,均取得明显成效。论文已发布于arXiv。
12 2
|
16天前
|
机器学习/深度学习 人工智能 算法
ChatGPT 等相关大模型问题之ChatGPT 的概念如何解决
ChatGPT 等相关大模型问题之ChatGPT 的概念如何解决
|
13天前
|
机器学习/深度学习
Sora 原理使用问题之Sora提示词的语义并进行视频生成该如何理解
Sora 原理使用问题之Sora提示词的语义并进行视频生成该如何理解
|
2月前
|
人工智能 程序员
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【7月更文挑战第20天】IEEE 35页论文揭示ChatGPT在复杂编码任务上的正确率仅0.66%,表明大型语言模型虽能生成语法正确代码,但在逻辑和可读性上不及人类程序员。研究强调AI在深度领域知识与推理上的局限性,提示AI辅助而非替代的角色。[链接:https://ieeexplore.ieee.org/document/10507163]
32 2
|
4月前
|
人工智能 搜索推荐
【ChatGPT 指令大全】怎么使用ChatGPT来辅助学习英语
【ChatGPT 指令大全】怎么使用ChatGPT来辅助学习英语
148 1
|
12月前
|
机器学习/深度学习 人工智能 算法
ChatGPT是如何训练得到的?通俗讲解
ChatGPT是如何训练得到的?通俗讲解
|
11月前
|
机器学习/深度学习 自然语言处理
chatGPT概念从何而来
GPT(Generative Pre-trained Transformer)是一种基于Transformer模型的自然语言处理模型,由OpenAI开发。它的概念来源于深度学习和自然语言处理领域的一系列研究和技术进展。 在深度学习领域,神经网络模型的发展一直在迅速演进。传统的神经网络模型在处理自然语言处理任务时存在一些问题,比如对长文本的理解能力较差,对上下文的关联性处理不够准确等。为了解决这些问题,研究人员开始关注一种新的模型结构——Transformer。 Transformer是一种基于自注意力机制(self-attention)的神经网络模型,由Vaswani等人在2017年提出。
56 0
|
存储 消息中间件 人工智能
ChatGPT 时代:阅读会不会被取代?
在这AI 盛行的时代不禁会有人发出疑问,读书对我们来说还有价值吗?笔者对此进行了解答并对 2022 年读过的书籍进行了总结和分类,希望能对大家有一定的借鉴意义
55898 13
ChatGPT 时代:阅读会不会被取代?
|
机器人
第一个超越ChatGPT的开源模型来了?网友并不买账
第一个超越ChatGPT的开源模型来了?网友并不买账
318 1
下一篇
云函数