李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始



 新智元报道  

作者:高佳 刘曦 李志飞
编辑:好困

【新智元导读】在标准化测试和其他基准测试中,GPT-4比之前的模型表现得更优异,可以跨数十种语言工作,还可以将图像作为输入对象,这意味着它能够在聊天上下文中理解照片或图表的意图和逻辑。


自微软3月初发布多模态模型 Kosmos-1 以来,一直在测试和调整 OpenAI 的多模态模型,并将其更好地兼容微软自有产品。果不其然,趁着GPT-4发布之际,微软也正式摊牌,New Bing早就已经用上GPT-4了。

ChatGPT用的语言模型是 GPT-3.5,在谈到GPT-4比前一个版本强大在哪里时,OpenAI称,虽然这两个版本在随意的谈话中看起来很相似,但「当任务的复杂性达到足够的阈值时,差异就会出现」,GPT-4更可靠、更有创意,并且能够处理更细微的指令。

王者加冕?关于GPT-4的八点观察

1. 再度惊艳,强过人类如果说GPT-3系列模型向大家证明了AI能够在一个模型里做多个任务,指明实现AGI的路径,GPT-4在很多任务上已经达到人类水平(human-level),甚至比人类表现更好。GPT-4在很多专业的学术考试上已经超越90%的人类,比如在模拟律师考试中,分数在应试者的前10%左右。对此,各类中小学、大学和专业教育该如何应对?

2. 「科学」炼丹 虽然OpenAI此次并未公布具体参数,但可以猜到GPT-4模型一定不小,模型太多就意味着高额训练成本。与此同时,训练模型也很像「炼丹」,需要做很多实验,如果这些实验都是在真实环境下去训练,高昂成本压力不是谁都能承受的。 为此,OpenAI别出心裁搞了一个所谓的「predictable scaling」,简言之就是用万分之一的成本来预测各个实验的结果(loss和human eval)。如此一来,就把原本大模型「碰运气」的炼丹训练升级为「半科学」的炼丹。 3. 众包评测,一举双得 这次非常「取巧」地提供了一个open source的OpenAI Evals, 用众包方式开放给各位开发者或爱好者,邀请大家使用Evals来测试模型,同时笼络开发者生态。这一 方式,既让大家有参与感,又能让大家免费帮忙评估提高系统,OpenAI直接获得问题和反馈,一石二鸟。

4. 工程补漏 这次还发布了一个System Card,是一个开放的「打补丁」工具,可以发现漏洞减少语言模型的「胡说八道」问题。 系统打了各种各样的补丁做预处理和后处理,后面还会开放代码把打补丁能力众包给大家,OpenAI未来也许可以让大家帮它一起做。 这标志着LLM终于从一个优雅简单的next token prediction任务进入了各种messy的工程hack了。 5. 多模态 自上周德国微软透露GPT-4是多模态后,大众可谓万众期待。 GPT-4千呼万唤始出来,被誉为「堪比人脑」的多模态其实跟目前很多论文阐述的多模态能力并无太多差别,主要区别就是把文本模型的few-shot和逻辑链(COT)结合进来,这里有个前提是需要一个基础能力很好的文本LLM再加多模态,会产生不错的效果。 6. 有计划地放出「王炸」 按照OpenAI演示GPT-4的demo视频里的说法,GPT-4 早在去年8月就已完成训练,但今天才发布,剩下的时间都在进行大量测试和各种查漏补缺,以及最重要的去除危险内容生成的工作。 当大家还沉浸在ChatGPT惊人的生成能力之时,OpenAI已经搞定GPT-4,这波谷歌工程师估计又要熬夜追赶了? 7. OpenAI不再Open OpenAI在公开的论文里完全没有提及任何模型参数和数据规模(网传GPT-4参数已达100万亿),也没有任何技术原理,对此解释说是为了普惠大众,怕大家学会了怎么做GPT-4之后会用来做恶,触发一些不可控的事情发生,个人完全不认同这种此地无银的做法。 8. 集中力量办大事 论文除了各种「炫技」,还特别用了三页把所有为GPT-4不同系统有贡献人员都列出来,粗略估计应该已经超过百人,再次体现OpenAI内部团队成员众志成城、高度协作的状态。以此对比其他几家的团队作战能力,在众志成城这方面是不是差得有点远?

目前多模态大模型已经成为整个AI大模型发展的趋势和重要方向,而在这场大模型AI「军备竞赛」中,谷歌、微软、DeepMind等科技巨头都积极推出多模态大模型(MLLM)或大模型(LLM)。

开启新一轮军备竞赛:多模态大模型

微软:Kosmos-1微软在3月初发布拥有16亿参数的多模态模型 Kosmos-1,网络结构基于 Transformer 的因果语言模型。其中,Transformer 解码器用作多模态输入的通用接口。除了各种自然语言任务,Kosmos-1 模型能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像字幕、简单的数学方程式、OCR 和带描述的零样本图像分类。

谷歌:PaLM-E 3月初,谷歌和柏林工业大学的研究团队推出目前最大的视觉语言模型——PaLM-E,参数量高达5620亿(PaLM-540B+ViT-22B)。 PaLM-E是一个仅有解码器的大模型,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。模型通过加一个编码器,模型可以将图像或感知数据编码为一系列与语言标记大小相同的向量,将此作为输入用于下一个token预测,进行端到端训练。 DeepMind:Flamingo DeepMind在去年4月推出Flamingo视觉语言模型,模型将图像、视频和文本作为提示(prompt),输出相关语言,只需要少量的特定例子既能解决很多问题,无需额外训练。 通过交叉输入图片(视频)和文本的方式训练模型,使模型具有 few-shot 的多模态序列推理能力,完成「文本描述补全、VQA / Text-VQA」等多种任务。 目前,多模态大模型已显示更多应用可能性,除了相对成熟的文生图外,人机互动、机器人控制、图片搜索、语音生成等大量应用逐一出现。 综合来看,GPT-4不会是AGI,但多模态大模型已经是一个清晰且确定的发展方向。建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。 雨果说「科学到了最后阶段,便遇上了想象」,多模态大模型的未来或许正超越人类的想象。

相关文章
|
2月前
|
存储 人工智能 异构计算
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
27 0
|
2月前
|
JSON C# 数据格式
gpt-3.5-turbo与星火认知大模型v3.5回答对比
gpt-3.5-turbo与星火认知大模型v3.5回答对比
32 0
|
28天前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
40 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
62 10
|
2月前
|
人工智能 安全 测试技术
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
63 4
|
2月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
39 1
|
2月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
27 1
|
3月前
|
存储 测试技术 计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第24天】Flash-VStream, 一款模拟人脑记忆的视频语言模型,实现实时长视频流理解和问答,夺得CVPR'24竞赛桂冠。它采用动态记忆技术,高效存储检索信息,大幅降低推理延迟与显存消耗,超越现有模型。虽有资源限制及复杂查询处理难题,仍展现卓越通用性及先进性能。[详细论文](https://arxiv.org/abs/2406.08085)。
66 17
|
2月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
106 2
|
3月前
|
计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第19天】Flash-VStream,一款类似GPT的开源视频模型,在CVPR'24赢得长视频问答冠军。该模型模拟人类记忆,实现实时视频流理解和快速问答,降低推理延迟和显存使用,同时推出VStream-QA基准,推动在线视频理解研究。尽管取得突破,但面临记忆限制和计算资源需求的挑战,且新基准的全面性有待检验。[论文链接](https://arxiv.org/abs/2406.08085)
53 11
下一篇
无影云桌面