展望AI时代,把握文档图像智能分析与处理的未来1

简介: 前言CCIG技术论坛 内容回顾及探讨一、人工智能大模型时代的文档识别与理解1.1 文档分析与识别 介绍1.2 文档识别历史回顾1.3 文档的种类与研究问题1.4 文档识别与理解研究现状1.5 大模型带来的挑战与机遇1.5.1 ChatGPT1.5.2 CPT-41.6 文档识别与理解 总结与展望

前言
2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。

众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。
image.png
CCIG技术论坛 内容回顾及探讨
image.png
一、人工智能大模型时代的文档识别与理解
大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人image.png
1.1 文档分析与识别 介绍
文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾image.png
1.3 文档的种类与研究问题image.png
1.4 文档识别与理解研究现状
1.识别理解技术

手写文本识别:大数据训练得到高精度
版面分析:深度学习(FCN+GNN)可解决大部分问题
文件检测与识别:进步很快,手写识别已可实用
新问题和技术:信息抽取、文档问答,预训练模型
2.不足

可靠性、可解释性、自适应性
复杂环境下性能:自然场景、古籍文档、拍照手写文档
复杂问题:复杂版面、数学公式、表格、结构化符号/图形
-语义理解能力:信息抽取,问题求解(推理),回答问题
1.5 大模型带来的挑战与机遇
ChatGPT, GPT-4等大模型的特点:

语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答
1.5.1 ChatGPT
ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。

ChatGPT的三个关键技术

情景学习(In-context learning)
大模型的涌现能力,改变传统学习范式。
思维链(Chain-of-Thought,CoT)
大模型的涌现能力,打破模型参数约束。
自然指令学习(Learning from Natural Instructions)
人在环路增强,对齐人类意图。
1.5.2 CPT-4
大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下,未来我们的最强导师。

还可以解释漫画的意思,属实不能用牛X二字来表达啦!image.png
1.6 文档识别与理解 总结与展望
文档分析与识别快速进步,但仍有很大的研究空间
从提升性能角度
• 文本识别可靠性、可解释性
• 全要素识别、长尾问题、多语言
• 复杂版面分割与理解,变形文档分析与识别
从应用扩展角度
• 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
• 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
从学习能力角度
• 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)

相关文章
|
人工智能 自然语言处理 Devops
云效 AI 智能代码评审体验指南
云效AI智能代码评审正式上线!在合并请求时自动分析代码,精准识别问题,提升交付效率与质量。支持自定义规则、多语言评审,助力研发效能升级。立即体验AI驱动的代码评审革新,让AI成为你的代码质量伙伴!
267 7
|
2月前
|
人工智能 自然语言处理 算法
【2025云栖大会】AI 搜索智能探索:揭秘如何让搜索“有大脑”
2025云栖大会上,阿里云高级技术专家徐光伟在云栖大会揭秘 Agentic Search 技术,涵盖低维向量模型、多模态检索、NL2SQL及DeepSearch/Research智能体系统。未来,“AI搜索已从‘信息匹配’迈向‘智能决策’,阿里云将持续通过技术创新与产品化能力,为企业构建下一代智能信息获取系统。”
335 9
|
2月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
366 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
2月前
|
人工智能 编解码 搜索推荐
AI智能换背景,助力电商图片营销升级
电商产品图换背景是提升销量与品牌形象的关键。传统抠图耗时费力,AI技术则实现一键智能换背景,高效精准。本文详解燕雀光年AI全能设计、Canva、Remove.bg等十大AI工具,涵盖功能特点与选型建议,助力商家快速打造高质量、高吸引力的商品图,提升转化率与品牌价值。(238字)
252 0
|
机器学习/深度学习 存储 Python
独家 | kaggle季军新手笔记:利用fast.ai对油棕人工林图像进行快速分类(附代码)
一支深度学习的新手队如何在kaggle竞赛中获得第三名?
1154 0
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
425 29
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
492 31