展望AI时代,把握文档图像智能分析与处理的未来1

简介: 前言CCIG技术论坛 内容回顾及探讨一、人工智能大模型时代的文档识别与理解1.1 文档分析与识别 介绍1.2 文档识别历史回顾1.3 文档的种类与研究问题1.4 文档识别与理解研究现状1.5 大模型带来的挑战与机遇1.5.1 ChatGPT1.5.2 CPT-41.6 文档识别与理解 总结与展望

前言
2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。

众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。
image.png
CCIG技术论坛 内容回顾及探讨
image.png
一、人工智能大模型时代的文档识别与理解
大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人image.png
1.1 文档分析与识别 介绍
文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾image.png
1.3 文档的种类与研究问题image.png
1.4 文档识别与理解研究现状
1.识别理解技术

手写文本识别:大数据训练得到高精度
版面分析:深度学习(FCN+GNN)可解决大部分问题
文件检测与识别:进步很快,手写识别已可实用
新问题和技术:信息抽取、文档问答,预训练模型
2.不足

可靠性、可解释性、自适应性
复杂环境下性能:自然场景、古籍文档、拍照手写文档
复杂问题:复杂版面、数学公式、表格、结构化符号/图形
-语义理解能力:信息抽取,问题求解(推理),回答问题
1.5 大模型带来的挑战与机遇
ChatGPT, GPT-4等大模型的特点:

语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答
1.5.1 ChatGPT
ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。

ChatGPT的三个关键技术

情景学习(In-context learning)
大模型的涌现能力,改变传统学习范式。
思维链(Chain-of-Thought,CoT)
大模型的涌现能力,打破模型参数约束。
自然指令学习(Learning from Natural Instructions)
人在环路增强,对齐人类意图。
1.5.2 CPT-4
大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下,未来我们的最强导师。

还可以解释漫画的意思,属实不能用牛X二字来表达啦!image.png
1.6 文档识别与理解 总结与展望
文档分析与识别快速进步,但仍有很大的研究空间
从提升性能角度
• 文本识别可靠性、可解释性
• 全要素识别、长尾问题、多语言
• 复杂版面分割与理解,变形文档分析与识别
从应用扩展角度
• 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
• 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
从学习能力角度
• 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)

相关文章
|
1天前
|
人工智能 资源调度 JavaScript
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。
102 18
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
|
8天前
|
存储 人工智能 自然语言处理
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
AI Agent以自主性和智能化为核心,适合复杂任务的动态执行;而SaaS工具则注重服务的完整性和易用性,适合标准化业务需求。
53 14
AI Agent与SaaS工具协同发展的未来:企业智能化的全新范式
|
6天前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
45 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
3天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
71 23
|
8天前
|
人工智能 自然语言处理 监控
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
SaaS(软件即服务)结合AI(人工智能),正引领企业解决方案向智能化转型。SaaS+AI大幅提升了工作效率与决策质量。它能自动完成重复任务、简化设置流程、主动识别并解决潜在问题,还能根据用户需求提供个性化推荐和动态优化配置。
44 1
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
|
1天前
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
|
6天前
|
传感器 机器学习/深度学习 人工智能
技术分享:智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警
这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用,通过信息抽取、OCR识别和机器学习等技术,实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据,精准识别设备故障并实时预警,显著提升了电网运营的安全性和可靠性。随着AI技术的发展,其在智能电网管理中的作用将日益重要。
|
机器学习/深度学习 存储 Python
独家 | kaggle季军新手笔记:利用fast.ai对油棕人工林图像进行快速分类(附代码)
一支深度学习的新手队如何在kaggle竞赛中获得第三名?
952 0
|
8天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
67 31