实测文心一言4.0,真的比GPT-4毫不逊色吗?(一)

简介: 实测文心一言4.0,真的比GPT-4毫不逊色吗?

10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本。

今天,咱们就开门见山啊。这一回要测一测,昨天才发布的文心一言大模型 4.0。

之所以要测它,是因为李彦宏昨天在会上说的那句:“综合能力比GPT-4毫不逊色!

 

这话一出,很多人就沸腾了。

据李彦宏这边的说法,文心 4.0 在记忆、理解、逻辑和生成四块,进步神速。

尽管他也在现场亲自演示了很多案例,但很多用户是压根不买账的。

不少人调侃说:“骗骗兄弟就可以了,别把自己也骗了啊。”

 

这回,业内人员世超也是很幸运地拿到了抢先内测的资格。

既然他吹自己和 GPT-4 比毫不逊色,那我们就让这俩互掐一下,比比斤两。

从拿到资格开始,世超试了一整天。这次也不跟大家卖关子了,直接说测试结论:

总体来说, GPT-4 稳定胜利,但文心一言 4.0 居然意外地某些方面压过 GPT-4 一头。

 

那么世超这次测试,还是从比较常见的几个测评角度入手,这样体现的更全面、真实。但是,测试难度我们是和之前的 GPT-4 测评难度对齐的。

这比赛的第一轮,先测点大家喜闻乐见的吧。

先从比较轻松的弱智吧和语义陷阱题入手,也正好可以考察一下逻辑和理解能力。

不过,这块很多大模型都有专门训练,问了很多题都没把它们考倒。但是,经过不懈努力,还是被世超抓到了漏洞。

我问了一个非常经典的弱智吧问题:世界上真的有“龙”,那我就在某地被“一条龙”服务过。

先看 GPT-4 这边,由于不知道这俩“龙”到底嘛意思,就开始乱编一些历史典故。

 

 

文心这边,也没有聪明到哪去,也是乱编了一种“幽默”的说法。

甚至,世超后面又给了它一次机会,追问它:两个龙是同一个龙吗?

文心依然极其坚定地给了我一个完全错误的答案。

 

 

不过,到了第二题, GPT-4 就站起来了。

当我问:公司是个温暖的大家庭,怪不得我总是当孙子。

文心这边还在那“温暖的公司”、“没有等级差别”。

 

不过,当世超又追加了一道领导题。事态却突然彻底反转,反而是文心赢得很彻底。

世超问了几个流行的段子:“领导夹菜你转桌,领导喝水你刹车”,让它们给仿写几个。

两边 AI 给我的句子,对仗都蛮工整的,就是 GPT-4 语义彻底理解反了。领导的马屁拍的非常完美,可惜就是答案全错。

 

 

文心这边给的这些答案,才真的符合当代青年的领导文化。

不过温馨提示,实操的时候建议开始以 GPT-4 为准。

 

这第一轮比拼结束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。

看来,文心一言说自己进步神速,不是完全在吹牛啊。

第二轮比赛,世超还想继续玩点有意思的,试试 AI 解读梗的能力。

当年, GPT-4 上线时能解梗图,那是叱诧风云了好长一段时间。

因为前面都是测中文语义,世超觉得对 GPT-4 有点不公平,所以特地选了个中英注解都有的梗图。

就像我的人生一样

不知道在忙些什么

 

不知道是不是有英文辅助,这一次 GPT-4 梗图解读能力强的不是一星半点。

不光能看懂“狗狗”是这张梗图的关键角色,而且读懂了笑点在于“认真帮忙”和“毫无效果”的对比。

 

但是,文心这边却还在一板一眼地把梗图,当阅读理解题来做。。。

而且嘴还蛮硬,你说这张图好笑,它坚持:这没啥让人发笑的,搞不懂你在乐什么。

 

不过,文心虽然不擅长解释梗图。但到了中文互联网梗,又马上扳回了一城。

世超问了个关于最近互联网上的新晋网红完颜慧德老师的 lonely 梗。

 

结果,文心不光点出了梗来源,而且正确解释了这是个谐音梗。

虽然最后很可惜,把“伦理”错误理解成了“理论”,就差这临门一脚,没踢进去。

 

 

但如果文心这边是没满分,那 GPT-4 这边恐怕属于不及格了。。

不光没读懂梗,连出处都找错了,让你去大型纪录片《完颜慧德传奇》里面找一找答案。

 

这第二轮比赛的两道小测试下来,双方各有千秋,不分高下吧。文心的热梗更新很快, GPT-4 图片解读更强。

两轮比赛下来,目前还没分出个高低来,焦灼在了 2 比 2 。

前面两轮语义理解都更偏基础,我们再测试一下专业能力。第三轮直接顶上 GPT-4 的超级强项——代码题。

不知道还有没有人记得,当年 GPT-4 花了 60 秒,做出一个完整的贪吃蛇小游戏,震撼了整个江湖。

现在我们用同样的测试,让文心来试一下。

因为代码比较长,所以这里就不完全展示了。咱们可以直接划到下面,看最后的效果。

实测文心一言4.0,真的比GPT-4毫不逊色吗?(二)+https://developer.aliyun.com/article/1384966

相关文章
|
2月前
|
存储 人工智能 数据处理
Claude 3发布,超越ChatGPT4的大模型出现了
【2月更文挑战第14天】Claude 3发布,超越ChatGPT4的大模型出现了
45 3
Claude 3发布,超越ChatGPT4的大模型出现了
|
5月前
|
人工智能 数据可视化 数据挖掘
实测文心一言4.0,真的比GPT-4毫不逊色吗?(二)
实测文心一言4.0,真的比GPT-4毫不逊色吗?(二)
164 0
|
15天前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
16天前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
22 0
|
27天前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
31 1
超越GPT-4V,苹果多模态大模型上新!
|
2月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
34 0
|
2月前
|
人工智能 安全 搜索推荐
Claude3正式发布!全面超越GPT4?
Claude3正式发布 。 OpenAI创始人奥特曼都还没来得及和马斯克掰扯完新仇旧恨,没关系,还有其他人会悄悄出手—— 瞩目时刻:Anthropic悄然发布最新一代大模型Claude 3!
73 2
Claude3正式发布!全面超越GPT4?
|
4月前
|
人工智能 自然语言处理 API
【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!
【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!
39 0
|
5月前
|
Web App开发 人工智能 安全
谷歌炸场:全新大语言模型 Gemini 1.0 正式亮相,近乎全面领先于 OpenAI GPT-4
根据谷歌给出的基准测试结果,Gemini 在许多测试中都表现出了“最先进的性能”,甚至在大部分基准测试中完全击败了 OpenAI 的 GPT-4。
|
6月前
|
人工智能 算法 定位技术
百度文心一言 VS GPT
百度文心一言 VS GPT
124 0