数字与图像/自然语言之间的相互映射

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 数字与图像/自然语言之间的相互映射

数字与图像/自然语言之间的相互映射
数字与图像的相互映射很容易理解。我们可以把一张矩形的图分解为许多正方形,这样一来,每个正方形都只有一种颜色,而不同的颜色可以用不同的数字来表示,于是,一张矩形图片就可以用许多排列整齐的数字来表示。反过来,我们也可以把许多排列整齐的数字转化为肉眼可辨识的图片。而这其中的正方形与正方形里面的数字,就是我们所说的“像素”。

数字与自然语言之间的相互映射则相对抽象。因为文字形式本身的唯一特点就是“差异”,所以要用数字表示文字,最容易想到的就是类比身份证,用一连串长度相同的数组来表示各个文字。比如,“我姓陈,不姓王”这句话中,一共有6个字,但2个“姓”是同一个字,所以有5种字,那么就用长度为5的数组去表示各个文字:

我:[1,0,0,0,0]
姓:[0,1,0,0,0]
陈:[0,0,1,0,0]
不:[0,0,0,1,0]
王:[0,0,0,0,1]
就像人有身份证一样,每个文字也有其对应的数组(或者说,向量)。然后反过来,又可以根据数组来反推出对应的文字。

但这里有一个问题:图像用数字表示不难理解,因为对于一个特定的“小正方形”而言,其颜色强度是确定的,因此,可以把不同强度的颜色用不同的数字来准确表示。

然而,文字呢?文字的含义如何通过数字来表示?

比如,“吃”和“饭”两个字经常搭配使用,那么,按理来说,当我们用数字去表示这两个文字时,数字就应该突显出对应的规律,而不只是许多个毫无规律的数字搭配在一起。

所以,在给文字配备“身份证”时,我们需要额外的设计。

首先,在设计前,我们要接受一个假设:某个字词的含义由它周围的字词决定。

这和我们做英文阅读题时很像。做阅读题时,不是有那种根据上下文猜测对应表粗单词的含义的题型吗?其实就是这个假设的很好的映证。

不妨再具体地举一个例子:有两句话,一句是“我吃饭”,另一句是“我恰饭”。那么,即使我们不知道“吃”和“恰”是什么意思,但根据他们两个上下文都是“我”和“饭”,不难推断出,“吃”和“恰”的含义应该是差不多的。

“某个字词的含义由它周围的字词决定”,我们把这个假设命名为分布式假设(distributional hypothesis)

好,既然接受了分布式假设,我们来看如何根据这个假设为文字配备身份证。

现在,我们选定一篇文章,文章里有许多文字,对吧?我们把这些文字一个一个拎出来,单独观察每个文字左右有些什么文字。

比如,在“别阻拦我吃饭喝汤”这句话中,我们拎出“吃”这个字,发现其左边有“别阻拦我”,右边有“饭喝汤”。然后,为了统一和方便,我们需要决定留下左右多少范围内的文字。简单起见,我们定为1,也就是说,我们只看拎出的文字的左边1个文字和右边1个文字,也就是“我”和“饭”。

相关文章
|
移动开发 文字识别 算法
论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法
本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。
1917 0
论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法
|
3月前
【代数学习题3】从零理解数域扩张与嵌入 —— 同构、商环、分裂域与同态映射
【代数学习题3】从零理解数域扩张与嵌入 —— 同构、商环、分裂域与同态映射
245 0
|
11月前
|
机器学习/深度学习 自然语言处理 文字识别
探索图像数据中的隐藏信息:语义实体识别和关系抽取的奇妙之旅
探索图像数据中的隐藏信息:语义实体识别和关系抽取的奇妙之旅
|
数据采集 机器学习/深度学习 自然语言处理
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
171 0
|
数据可视化 算法 Serverless
使用分水岭算法分割图像中相互接触的对象
使用分水岭分割来分离图像中相互接触的对象。分水岭变换通过将图像视为一个曲面,其中亮像素表示较高处,暗像素表示较低处,从而找出图像中的“汇水盆地”和“分水岭脊线”。
74 0
|
机器学习/深度学习 算法 计算机视觉
分割之后再识别对象之间关系,新模型RAM为SAM赋予新技能
分割之后再识别对象之间关系,新模型RAM为SAM赋予新技能
144 0
分割之后再识别对象之间关系,新模型RAM为SAM赋予新技能
|
机器学习/深度学习 编解码 算法
带映射和带结构之间的机器学习路线
带映射和带结构之间的机器学习路线
100 0
|
机器学习/深度学习 人工智能 网络架构
CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构,完美解决空间细节、上下文和边界信息
CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构,完美解决空间细节、上下文和边界信息
909 0
|
机器学习/深度学习 人工智能 自然语言处理
CLIP:语言-图像表示之间的桥梁
最近GPT4的火爆覆盖了一个新闻:midjourney v5发布,DALLE2,midjourney都可以从文本中生成图像,这种模型要求人工智能同时理解语言和图像数据。
189 0
|
人工智能 数据建模 计算机视觉
矩阵和数据之间的关系 | 学习笔记
快速学习矩阵和数据之间的关系
404 0
矩阵和数据之间的关系 | 学习笔记