前言
2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。
众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。
本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。
CCIG技术论坛 内容回顾及探讨
一、人工智能大模型时代的文档识别与理解
大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人
1.1 文档分析与识别 介绍
文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。
场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。
1.2 文档识别历史回顾
1.3 文档的种类与研究问题
1.4 文档识别与理解研究现状
1.识别理解技术
手写文本识别:大数据训练得到高精度
版面分析:深度学习(FCN+GNN)可解决大部分问题
文件检测与识别:进步很快,手写识别已可实用
新问题和技术:信息抽取、文档问答,预训练模型
2.不足
可靠性、可解释性、自适应性
复杂环境下性能:自然场景、古籍文档、拍照手写文档
复杂问题:复杂版面、数学公式、表格、结构化符号/图形
-语义理解能力:信息抽取,问题求解(推理),回答问题
1.5 大模型带来的挑战与机遇
ChatGPT, GPT-4等大模型的特点:
语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答
1.5.1 ChatGPT
ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。
ChatGPT的三个关键技术
情景学习(In-context learning)
大模型的涌现能力,改变传统学习范式。
思维链(Chain-of-Thought,CoT)
大模型的涌现能力,打破模型参数约束。
自然指令学习(Learning from Natural Instructions)
人在环路增强,对齐人类意图。
1.5.2 CPT-4
大模型的文档识别和理解能力目前已经是非常强了。
解物理题和文档摘要完全不在话下,未来我们的最强导师。
还可以解释漫画的意思,属实不能用牛X二字来表达啦!
1.6 文档识别与理解 总结与展望
文档分析与识别快速进步,但仍有很大的研究空间
从提升性能角度
• 文本识别可靠性、可解释性
• 全要素识别、长尾问题、多语言
• 复杂版面分割与理解,变形文档分析与识别
从应用扩展角度
• 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
• 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
从学习能力角度
• 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)