CCIG 2023 从视觉-语言模型到智能文档图像处理

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 最近,中国图像图形大会(CCIG 2023)在苏州成功结束。本次大会以“图像图形·向未来”为主题,由中国科学技术协会指导,中国图像图形学学会主办,苏州科技大学承办。

前言

最近,中国图像图形大会(CCIG 2023)在苏州成功结束。本次大会以“图像图形·向未来”为主题,由中国科学技术协会指导,中国图像图形学学会主办,苏州科技大学承办。论坛邀请了5位学术界🎓产业界💼的专家做特邀报告,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势,本次大会,来自北京大学的邹月娴教授和合合信息的丁凯博士带来的报告令人印象深刻。

一、视觉-语言模型是什么?

视觉作为一种主要的感知模态,使我们能够感知和理解周围的世界,促使物体识别、运动感知和美景欣赏等能力的形成,是使我们能够与外部现实建立联系的一扇关键的窗口。

而语言则作为一种认知工具,是认知的媒介,用于思考、交流和表达。通过语言,我们使用抽象符号来表达概念、情感和思想,帮助我们组织和理解知识、推理和解决问题以及与他人进行沟通和合作。

在多模态领域中,视觉和语言的融合目前受到了广泛的关注,视觉提供图像和视频的视觉信息,语言则提供文字和语音的语义信息,通过多模态输入的融合,模型能够从视觉与语言的相互关系中汲取灵感。通过结合视觉和语言信息,更全面地感知和认知世界,更好地理解和表达复杂的场景和任务。

视觉-语言模型是一种结合了图像和文本信息的典型跨模态模型,其主要目的是学习图像和文本之间的语义关系。它可以用于多种视觉-语言任务,例如图像描述生成、图像问答、视觉推理等。

二、视觉-语言模型可以用来做什么?

视觉-语言模型可以帮助计算机更好地理解图像和文本之间的语义关系,从而实现更加智能化的视觉-语言交互,其中包括但不限于以下几个方面:图像描述生成、视频理解和摘要生成、视觉问答、跨模态检索、视觉语音合成。

这里我列了一张表格,总结了视觉-语言中部分任务、数据集、评价指标及其主流模型:

类型 任务 输入 输出 数据集 评价指标 部分主流模型
生成 图像字幕 图像 句子 COCO 、Flickr30K 、Flickr8K 、CC3M 、CC12M 、SBU Captions BLEU、METEOR、ROUGE 、CIDEr ,SPICE m-RNN、BUTD、AoANet、AutoCaption、ORT、CPTR
文本生成图像 文本 图像 COCO、CUB Inception Score、FID、R StackGAN、AttnGAN、DF-GAN
理解 视觉问答 图像+文本 短语 VQA、VQAv2、DAQUAR、COCO QA VQA Accuracy SAN、BUTD、MCB、MUTAN
视觉推理 图像+文本+图形 文本 GQA、CLEVER、NLVR、VCR Accuracy NMN、N2NMN、PG+EE、TbD-net、NS-VQA、XNM-Det
检索 图像-文本检索、文本-图像检索 文本/图像 图像/文本 COCO、Flickr30k、Flickr8K Recall@K, Median r MNLM、m-CNN、m-RNN、SCAN、Deep Fragment

三、视觉-语言预训练模型

视觉-语言模型的训练通常分为两个阶段:预训练和微调。预训练阶段是在无监督的情况下,通过最大化某种预训练目标函数来学习模型参数。微调阶段是在有监督任务中对模型进行微调,以提高模型的表现能力。视觉-语言预训练模型是视觉-语言模型的一种预训练形式,旨在通过联合训练图像和文本数据,在无监督的情况下,通过最大化某种预训练目标函数来学习模型参数从而使计算机能够理解和表达视觉和语言之间的关联。这些模型通常使用大规模的视觉和语言数据集进行预训练,以学习图像和文本之间的对应关系和语义表示。

3.1、模型架构

视觉-语言预训练模型的典型架构是使用Transformer或类似的注意力机制模型。它由两个主要组件组成:视觉编码器和语言编码器。

  1. 视觉编码器负责处理图像数据,并将其转换为高维的视觉特征表示。这一过程通常通过卷积神经网络(CNN)来实现,将图像输入模型,并提取出图像的特征向量。这些特征向量捕捉了图像中的语义和结构信息。
  2. 语言编码器则用于处理文本数据,将文本转化为语义向量表示。常见的方法是使用循环神经网络(RNN)或Transformer模型,将文本序列输入模型,并将其编码为具有语义信息的固定长度向量。

从多模态融合的角度来看,视觉-语言预训练模型主要分为两种架构:单信息流体系结构和多信息流体系结构。

单流架构指将文本和视觉特征连接在一起,然后馈送到单个Transformer块中,如下图所示,单流结构利用合并的注意力来融合多模态输入。

多信息流架构是指文本和视觉特征不连接在一起,而是单独发送到两个不同的Transformer块,如下图所示。这两个Transformer块不共享参数,而为了获得更高的性能,一般使用交叉注意来实现跨模态交互。

3.2、训练目标

为了学习视觉和语言的联合表示,视觉语言预训练方法通常使用几个自监督学习损失来在大数据集上预训练模型,预训练方法主要有三种,分别是图像文本匹配(Image Text Matching)、掩模语言建模(Masked Language Modeling)和掩模视觉建模(Masked Vision Modeling)。

3.2.1、图像-文本匹配损失(ITM)

图像-文本匹配(Image-Text Matching,简称ITM)是指通过计算机视觉和自然语言处理技术,将图像和文本进行匹配和对齐的任务。其目标是衡量图像和文本之间的相似性或关联程度。ITM的目标是通过建立一个模型,能够将每个图像与其相关的文本进行匹配,以便衡量它们之间的相似性或相关性,其可以表述为一个二元分类任务:

LITM=E(W,V)Dlogp(yW,V)

其中,W表示文本符号序列,而V表示视觉内容,y=0时表示图像和文本匹配,y=1时表示图像和文本不匹配。

3.2.2、掩码语言建模损失(MLM)

掩码语言建模(Masked Language Modeling,MLM)损失是用于训练基于掩码语言建模任务的预训练模型的损失函数,被用来鼓励模型学习语言标记和视觉内容之间的隐式关系,其从已知的语言标记和视觉内容中重构被屏蔽的语言标记,使模型能够学习到单词的上下文表示和语义关联,可以被表述为:

LMLM=E(W,V)Dlogp(wiW\i,V))

其中,W\i表示没有第i个单词的句子,公式通过最大似然估计(MLE)计算掩码语言建模任务的损失,具体而言,其根据上下文W\i和可见特征V的信息,预测位置i的掩码单词wi的概率分布。然后,通过计算预测概率与真实值的交叉熵(取负号),得到对应位置的损失值。对整个数据集中的所有位置进行求和或平均,即可得到最终的MLM损失。

3.2.3、掩码视觉建模损失(MVM)

受MLM的启发,掩码视觉建模损失(Masked Vision Modeling,MVM)通过重构被屏蔽的视觉内容来学习语境化的视觉表示,其用于对图像中的掩模区域进行建模和预测,通过对图像中的一部分区域进行遮挡(或掩模),然后根据已知的图像信息预测被掩盖区域的内容。与具有词汇字典的语言模型类似,可视化建模与可视化字典(Visual Modeling with Visual Dictionary,MVMVD)需要一个视觉词汇字典(VD),而MVMVD的目标是重建被屏蔽的VD令牌,其可以被表述为:

LMVM=E(W,f(V))Dlogp(f(vj)W,f(V)\j)

其中,f()表示从图像网络到VD中可视标记的映射,j表示VD中掩码标记的索引。

3.3、SOTA模型

VisualBERT是第一个图像-文本预训练模型,它使用Faster R-CNN提取视觉特征,将提取出的视觉特征与文本嵌入连接起来,馈送到BERT初始化的单个转换器中。Unicoder-vl、UNITER、ImageBERT、VL-BERT等许多视觉-语言模型也采用了类似的特征提取和架构。

最近,VDBERT通过迁移学习对大规模图像-文本对进行预训练,对视觉和语言中的深层视觉-语言对齐进行建模。VLMO则利用图像的补丁嵌入和文本的单词嵌入,并将连接的嵌入与模态专家一起馈送到单个Transformer中,实现了令人印象深刻的性能。METER使用单模态预训练模型并提出了双流架构模型来处理多模型融合,从而实现了很好的性能。

四、视觉到语言的数字化转型——智能文档分析

随着数字化时代的到来,越来越多的企业和组织开始将纸质文档转化为数字文档,以提高工作效率和准确性。然而,随着文档数量的不断增加,如何高效地处理和分析这些文档成为了一个亟待解决的问题,丁凯博士为我们带来了智能文档处理技术的相关内容。

4.1、智能文档分析的技术难题

传统的文档处理方式往往需要大量的人力和时间,效率低下且容易出错。而智能文档分析是指利用人工智能技术对文档进行自动化处理和分析,例如文本分类、文本摘要、实体识别等。智能文档处理可以帮助人们更加高效地处理和管理文档,提高工作效率和准确性。

文档图像智能分析与处理是一个重要且极具挑战性的研究问题:

  1. 文档的场景和板式多样。不同的文档可能采用不同的排版方式和格式,这给文档的处理和分析带来了很大的挑战。
  2. 采集设备不确定,文档的来源和采集方式也会影响文档的质量和可处理性。
  3. 用户需求也非常多样化,不同的用户可能对文档的处理和分析有不同的需求和要求。这就需要智能文档处理系统具备一定的灵活性和可定制性,以满足不同用户的需求。
  4. 文档图像质量退化严重。由于文档的保存时间和方式不同,文档图像可能会出现模糊、失真、噪声等问题,这会影响文档的识别和分析效果。
  5. 文字检测及版面分析。特别是对于复杂的文档,如手写文档、印刷体和手写体混合的文档等,文字检测和版面分析的难度更大。
  6. 非限定条件文字识别率低。由于文档中的文字可能出现各种字体、大小、颜色和方向,这会影响文字识别的准确率和效率。
  7. 结构化智能理解能力差。结构化智能理解即如何将文档中的信息进行结构化处理和分析,以便更好地理解和利用文档中的信息。因此,智能文档处理系统需要具备一定的结构化智能理解能力,以实现更加智能化的文档处理和分析。

4.2、智能文档图像处理新应用

作为一家专注于人工智能技术研发和应用的企业,上海合合信息科技股份有限公司一直致力于解决以上智能文档图像处理面临的各种技术难题。合合信息专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术,还为全球C端用户和多元行业B端客户提供身份证、票据数字化、PS篡改检测、报表OCR识别、切边增强、曲面矫正、阴影处理、印章检测等智能图像处理产品及服务。

4.2.1、手写板发光擦除

在拍摄黑板上的文字时,由于光线的反射和折射,会产生反光干扰,影响手写内容的识别和显示。合合信息在手写板反光抑制技术中使用了背景提取模块和信息融合模块。

背景提取模块会对手写板的背景进行提取,并将手写内容与背景进行分离。基于深度学习的分割方法是最常用的方法之一,其通过使用卷积神经网络等深度学习技术,自动学习图像中的特征,实现高效准确的图像分割并将图像分为前景和背景,常见的方法有基于U-Net的深度学习背景提取方法和基于Mask R-CNN的深度学习背景提取方法。信息融合模块会将手写内容与背景进行融合,并将结果显示在手写板上。通过这种方式,可以有效减少反光干扰,提高手写板的使用效果,为用户提供更好的使用体验

4.2.2、文档图像篡改检测

在数字化时代,文档图像的篡改已经成为了一种常见的问题,文档图像篡改检测技术可以有效地保护文档图像的完整性和真实性。传统基于文件标记篡改检测方法通过在文件中添加特殊的标记,用于检测文件是否被篡改。当文件被篡改时,标记的信息也会被改变,从而可以检测出文件的篡改。但该方法很容易受到篡改攻击的影响,一些高级的篡改攻击可以绕过该方法的检测,一些第三方软件已经可以抹除文档的Exif信息,已经存在很大的安全隐患。

基于此问题,合合信息提出了一种图像篡改检测系统,其主要包括两个方面:特征提取和篡改检测。特征提取是指从文档图像中提取出包括纹理、颜色、形状等一系列特征。篡改检测是指通过比较文档图像的特征,检测文档图像是否被篡改。

4.3、智能文档图像处理利器

合合信息 C 端产品方面的扫描全能王(智能扫描及文字识别 APP)、名片全能王(智能名片及人脉管理 APP)、启信宝(企业商业信息查询 APP)这些耳熟能详的产品覆盖了全球百余个国家和地区的亿级用户;

智能文字识别服务平台 TextIn,基于合合信息自主研发的领先的智能文字识别及商业大数据核心技术,也为面向企业客户提供以智能文字识别、商业大数据为核心的服务,形成了包括基础技术服务、标准化服务和场景化解决方案的业务矩阵,满足客户降本增效、风险管理、智能营销等多元需求。

合合信息专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术,很多产品已在银行、保险、制造业等多个行业得到了应用。

最后

本次大会,来自知名高校和企业的研究者们,围绕文档图像处理的前沿技术展开了“头脑风暴”,在文档图像处理领域的未来进阶方向上为我们带来了很多有意思的观点分析。

我认为在大模型时代,视觉-语言跨模态模型的研究已经成为一个重要趋势,它可以实现对图像和文本信息的联合建模和深度理解,从而提高文档图像处理的准确性和效率。在文档图像处理方面,其可以对图像和文本信息深度理解和分析,从而提高处理的准确性和效率。随着人工智能技术的不断发展和应用,我相信视觉-语言跨模态模型和文档图像处理技术将发挥越来越重要的作用。

相关文章
|
7月前
|
机器学习/深度学习 人工智能 数据处理
AI技术可以自动识别图像
在现代社会,人工智能已经成为了科技发展的重要驱动力。尤其是在众多领域中,AI技术的应用为人们的生活带来了极大的便利。其中,AI在图像识别方面的应用尤为突出,无论是在安防、医疗、教育,还是在日常生活中的方方面面,都有着广泛的应用。
125 3
|
人工智能 文字识别 安全
关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享
>10月14日第六届[中国模式识别与计算机视觉大会](https://www.prcv2023.cn/2023prcv)在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。 本届会议主题为“相约鹭岛,启智未来”。会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。 PRCV2023共设5个大
158 0
|
2天前
|
人工智能 编解码 机器人
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。
47 13
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
|
2月前
|
机器学习/深度学习 传感器 算法
深度学习之基于视觉的机器人导航
基于深度学习的视觉机器人导航是一种通过深度学习算法结合视觉感知系统(如摄像头、LiDAR等)实现机器人在复杂环境中的自主导航的技术。
74 5
|
7月前
|
机器学习/深度学习 计算机视觉 异构计算
构建高效图像分类器:深度学习在视觉识别中的应用
【5月更文挑战第30天】 在计算机视觉领域,图像分类任务是基础且关键的一环。随着深度学习技术的兴起,卷积神经网络(CNN)已成为图像识别的强有力工具。本文将探讨如何构建一个高效的图像分类器,着重分析CNN架构、训练技巧以及优化策略。通过实验对比和案例研究,我们揭示了深度学习模型在处理复杂视觉数据时的优势和挑战,并提出了改进方向,以期达到更高的准确率和更快的处理速度。
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
267 3
|
7月前
|
人工智能 文字识别 自然语言处理
文档图像多模态大模型最新技术探索
文档图像多模态大模型最新技术探索
488 0
|
6月前
|
存储 API Android开发
视觉智能开放平台产品使用合集之生成式图像超分和图像超分有什么区别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
7月前
|
机器学习/深度学习 算法 API
视觉智能平台如何识别图像的某个特征?
视觉智能平台如何识别图像的某个特征?
69 0
|
JSON 编解码 物联网
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求

热门文章

最新文章