展望AI时代,把握文档图像智能分析与处理的未来1

简介: 前言CCIG技术论坛 内容回顾及探讨一、人工智能大模型时代的文档识别与理解1.1 文档分析与识别 介绍1.2 文档识别历史回顾1.3 文档的种类与研究问题1.4 文档识别与理解研究现状1.5 大模型带来的挑战与机遇1.5.1 ChatGPT1.5.2 CPT-41.6 文档识别与理解 总结与展望

前言
2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。

众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。
image.png
CCIG技术论坛 内容回顾及探讨
image.png
一、人工智能大模型时代的文档识别与理解
大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人image.png
1.1 文档分析与识别 介绍
文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾image.png
1.3 文档的种类与研究问题image.png
1.4 文档识别与理解研究现状
1.识别理解技术

手写文本识别:大数据训练得到高精度
版面分析:深度学习(FCN+GNN)可解决大部分问题
文件检测与识别:进步很快,手写识别已可实用
新问题和技术:信息抽取、文档问答,预训练模型
2.不足

可靠性、可解释性、自适应性
复杂环境下性能:自然场景、古籍文档、拍照手写文档
复杂问题:复杂版面、数学公式、表格、结构化符号/图形
-语义理解能力:信息抽取,问题求解(推理),回答问题
1.5 大模型带来的挑战与机遇
ChatGPT, GPT-4等大模型的特点:

语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答
1.5.1 ChatGPT
ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。

ChatGPT的三个关键技术

情景学习(In-context learning)
大模型的涌现能力,改变传统学习范式。
思维链(Chain-of-Thought,CoT)
大模型的涌现能力,打破模型参数约束。
自然指令学习(Learning from Natural Instructions)
人在环路增强,对齐人类意图。
1.5.2 CPT-4
大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下,未来我们的最强导师。

还可以解释漫画的意思,属实不能用牛X二字来表达啦!image.png
1.6 文档识别与理解 总结与展望
文档分析与识别快速进步,但仍有很大的研究空间
从提升性能角度
• 文本识别可靠性、可解释性
• 全要素识别、长尾问题、多语言
• 复杂版面分割与理解,变形文档分析与识别
从应用扩展角度
• 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
• 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
从学习能力角度
• 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)

相关文章
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。
73 16
Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!
|
17天前
|
人工智能 资源调度 JavaScript
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。
234 18
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
|
9天前
|
人工智能 编解码 自然语言处理
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。
45 6
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
|
3天前
|
机器学习/深度学习 人工智能 运维
智能日志分析:用AI点亮运维的未来
智能日志分析:用AI点亮运维的未来
36 15
|
19天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
124 23
|
10天前
|
人工智能 监控 安全
设计:智能医疗设备管理系统——AI医疗守护者
该系统将结合人工智能技术与区块链技术,实现对医疗设备的智能化管理。目标是提高医疗设备的管理效率,确保医疗设备的数据安全,优化医疗资源的配置,提升医疗服务质量。
|
9天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
33 5
|
16天前
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
|
13天前
|
人工智能 编解码 自然语言处理
AI运用爆发时代, 视频服务云原生底座“视频云”架构的全智能再进化
本文介绍了AI运用爆发时代下,视频服务云原生底座“视频云”架构的全智能再进化。随着AI技术的发展,视频内容和交互方式正经历深刻变革。文章从背景、视频AI应用挑战、视频云网端底座、AIGC时代的全智能化及未来展望五个方面展开讨论。重点阐述了云、网、端三者如何深度融合,通过AI赋能视频采集、生产、分发和消费全流程,实现视频处理的智能化和高效化。同时,展望了未来AI在视频领域的创新应用和潜在的杀手级应用。
|
机器学习/深度学习 人工智能 文字识别