和 OpenAI、微软 demo 中所展示的理想情况不同,现实世界的图文总是以充满挑战的形式存在,比如存在形变、阴影、摩尔纹,这会加大后续识别、理解等工作的难度。郭丰俊团队的目标就是在初始阶段把这些问题解决好。
为此,他们将这项任务分成了几个模块,包括感兴趣区域(RoI)的提取、形变矫正、图像恢复(如去除阴影、摩尔纹)、质量增强(如增强锐化、清晰度)等。
这些技术组合起来可以打造一些非常有意思的应用。经过多年的摸索,这些模块已经实现了相当不错的效果,相关技术已被应用于公司旗下的智能文字识别产品「扫描全能王」里。
从字到表,再到篇章,一步步读懂图文
图像处理好之后,接下来的工作就是识别上面的图文内容。这也是一个非常细致的工作,甚至可能以「字」为单位。
在很多现实场景中,字不一定会以规范的印刷体的形式出现,这就给字的识别带来了挑战。
以教育场景为例。假设你是一位老师,你肯定想让 AI 直接帮你把学生作业全部批改好,同时把学生对各部分知识的掌握情况汇总一下,最好还能把错题、错别字及改正建议给出来。中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊就在做这方面的工作。
具体来说,他们创建了一套基于部首的汉字识别、生成与评测系统,因为与整字建模相比,部首的组合要少得多。其中,识别与生成是联合优化的,这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面,而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。
文字之外,表格的识别与处理其实也是一大难点,因为你不仅要识别里面的内容,还要理清这些内容之间的结构关系,而且有些表可能连线框都没有。为此,杜俊团队设计了一种「先分割,后合并」的方法,即先把表格图像拆分成一系列基础网格,然后再通过合并的方式做进一步纠正。
杜俊团队「先分割,后合并」的表格识别方法。
当然,所有这些工作最后都会在篇章级别的文档结构化和理解方面发挥作用。在现实环境中,模型所面临的文档大多不止一页(比如一篇论文)。在这一方向,杜俊团队的工作聚焦于跨页文档要素分类、跨页文档结构恢复等。不过,这些方法在多版式的场景下还存在局限性。
大模型、多模态、世界模型…… 未来路在何方?
聊到篇章级别的图文处理与理解,其实我们离 GPT-4 就不远了。「多模态的 GPT-4 出来后,我们也在想能不能在这些方面做些事情」,杜俊在活动现场说到。相信很多图文处理领域的研究者或从业者都有此想法。
一直以来,GPT 系列模型的目标都是努力提高通用性,最终实现通用人工智能(AGI)。此次 GPT-4 所展现出的强大的图文理解能力是这种通用能力的重要组成部分。要想做出一个拥有类似能力的模型,OpenAI 给出了一些借鉴,也留下了不少谜团和未解决的问题。
首先,GPT-4 的成功表明,大模型 + 多模态的做法是可行的。但大模型要研究哪些问题,多模态的夸张算力需求如何解决都是摆在研究者眼前的挑战。
对于第一个问题,复旦大学计算机学院教授邱锡鹏给出了一些值得参考的方向。根据 OpenAI 之前透露的一些信息,我们知道 ChatGPT 离不开几项关键技术,包括情景学习(in-context learning)、思维链(chain of thought)和指令学习(learn from instructions)等。邱锡鹏在分享中指出,这几个方向都还有很多待探讨的问题,比如这些能力从哪里来、如何继续提高、如何利用它们去改造已有的学习范式等。此外,他还分享了对话式大型语言模型构建时应该考虑的能力以及将这些模型与现实世界对齐可以考虑的研究方向。
对于第二个问题,厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为,语言和视觉存在着天然的联系,二者的联合学习已经是大势所趋。但面对这波浪潮,任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始,尝试说服研究人员将算力整合起来,形成一个网络去做多模态大模型。其实,在前段时间的一个活动上,专注于 AI for Science 的鄂维南院士也发表了类似看法,希望各界「敢于在原始创新方向上集中资源」。
不过,GPT-4 所走的路就一定会通向通用人工智能吗?对此,有些研究者是存疑的,图灵奖得主 Yann LeCun 便是其中之一。他认为,当前的这些大模型对于数据、算力的需求大得惊人,但学习效率却很低(比如自动驾驶汽车)。因此,他创立了一套名为「世界模型」(即世界如何运作的内部模型)的理论,认为学习世界模型(可以理解为为真实世界跑个模拟)可能是实现 AGI 的关键。在活动现场,上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说,他的团队着眼于视觉直觉的世界模型(因为视觉直觉信息量大),试图把视觉、直觉以及对时间、空间的感知建模好。最后,他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。
「毛毛虫从食物中提取营养,然后变成蝴蝶。人们已经提取了数十亿条理解的线索,GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天,深度学习之父 Geoffrey Hinton 发了这样一条推文。
目前,还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是,这还不是一只完美的蝴蝶,整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。