当GPT-4学会看图文,一场生产力革命已势不可挡(1)

简介: 当GPT-4学会看图文,一场生产力革命已势不可挡

「太卷了!」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后,相信很多人都有这样的感想。

与 GPT-3.5 相比,GPT-4 在很多方面都实现了大幅提升,比如在模拟律师考试中,它从原来的倒数 10% 进化到了正数 10%。当然,普通人对于这些专业考试可能没什么概念。但如果给你看一张图,你就明白它的提升有多么恐怖了:

图源:清华大学计算机系教授唐杰微博。链接:https://m.weibo.cn/detail/4880331053992765

这是一道物理题,GPT-4 被要求根据图文逐步解题,这是 GPT-3.5(此处指升级之前的 ChatGPT 所依赖的模型)所不具备的能力。一方面,GPT-3.5 只被训练用来理解文字,题中的图它是看不懂的。另一方面,GPT-3.5 的解题能力也很薄弱,鸡兔同笼都能把它难倒。但这一次,两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候,微软又放出了一个重磅炸弹:GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力,Microsoft 365 Copilot 不仅可以帮你写各种文档,还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……


从技术亮相到产品落地,OpenAI 和微软只给了大众两天的反应时间。似乎在一夜之间,一场新的生产力革命已经到来。

由于变革来得太快,学界和业界都或多或少地处于一种迷茫和「FOMO(fear of missing out,怕错过)」的状态。当前,所有人都想知道一个答案:在这场浪潮中,我们能做些什么?有哪些机会可以抓住?而从微软发布的 demo 中,我们可以找到一个清晰的突破口:图文智能处理

在现实场景中,各行各业的很多工作都和图文处理有关系,比如把非结构化数据整理成图表、根据图表写报告、从海量的图文信息中抽取出有用信息等等。也正因如此,这场革命的影响可能远比很多人想象得还要深远。OpenAI 和沃顿商学院最近发布的一篇重磅论文对这种影响做了预测:约 80% 的美国劳动力至少有 10% 的工作任务可能会受到 GPT 引入的影响,而约 19% 的工人可能会看到至少 50% 的任务受到影响。可以预见,这里面很大一部分工作是涉及图文智能的。

在这样一个切入点上,哪些研究工作或工程努力是值得探索的呢?在近期中国图象图形学学会(CSIG)主办,合合信息、CSIG 文档图像分析与识别专业委员会联合承办的 CSIG 企业行活动中,来自学界和业界的多位研究者围绕「 图文智能处理技术与多场景应用技术」展开了深入探讨,或许能给关注图文智能处理领域的研究者、从业者提供一些启发。

处理图文,从做好底层视觉开始

前面提到,GPT-4 的图文处理能力是非常令人震撼的。除了上面那个物理题,OpenAI 的技术报告里还举了其他例子,比如让 GPT-4 读论文图:


不过,要想让这样的技术广泛落地,可能还有很多基础工作要做,底层视觉便是其中之一。

底层视觉的特征非常明显:输入是图像,输出也是图像。图像预处理、滤波、恢复和增强等都属于这一范畴。

「底层视觉的理论和方法在众多领域都有着广泛的应用,如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好,很多 high-level 视觉系统(如检测、识别、理解)无法真正落地。」合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中表示。

这句话要怎么理解?我们可以看一些例子:



相关文章
|
机器学习/深度学习 人工智能 文字识别
当GPT-4学会看图文,一场生产力革命已势不可挡(2)
当GPT-4学会看图文,一场生产力革命已势不可挡
|
3月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
35 3
|
3月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
45 2
|
3月前
|
索引 Python
Python 金融编程第二版(GPT 重译)(二)(4)
Python 金融编程第二版(GPT 重译)(二)
25 0
|
3月前
|
存储 SQL 数据可视化
Python 金融编程第二版(GPT 重译)(二)(3)
Python 金融编程第二版(GPT 重译)(二)
36 0
|
3月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
28 2
|
3月前
|
存储 SQL 数据可视化
Python 金融编程第二版(GPT 重译)(四)(1)
Python 金融编程第二版(GPT 重译)(四)
34 2
|
3月前
|
数据可视化 Python
Python 金融编程第二版(GPT 重译)(三)(4)
Python 金融编程第二版(GPT 重译)(三)
23 2
|
3月前
|
存储 算法 数据可视化
Python 金融编程第二版(GPT 重译)(一)(1)
Python 金融编程第二版(GPT 重译)(一)
54 1
|
3月前
|
SQL 存储 数据库
Python 金融编程第二版(GPT 重译)(四)(3)
Python 金融编程第二版(GPT 重译)(四)
31 1
下一篇
无影云桌面