文本特征提取-中|学习笔记

简介: 快速学习文本特征提取-中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本特征提取-中】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15491


文本特征提取-中

 

内容简介:

一、分词方法

二、分词难点

 

一、分词方法

那么我们下来看一下分词方法的最大匹配法,有一串生活文本,计算机语言学课程是三个课时,我们要用最大匹配法分词的话,我们就要设定一个最大的词长,5个词为分好词的最大词长,分好的词放在S2里。

我们刚才讲过,分词需要有一个分词的词典,词典里有的词才能分出来。因为我们最大的词长是五个字,所以在词典里查计算机语言学,查到的话就命中,然后把他放到s2。

接下来去词典里查课程是三个,没有查到,变成四个词,查课程是三,还是没有,再变成三个,课程是,仍然没有,再变成两个字课程,查找,命中了,再放到s2里面。

运用这样一个方法,我们可以把这一句话分成这样一些词,这就是最大匹配法的一个基本思路。当然最大匹配法我们刚刚是从左往右截,也可以从右往左截,或者双向的截取。

接下来我们再看一下最大概率法.他的基本思想是,一个待切分的汉字串可能包含多种分词结果,我们知道这是非常常见的,然后我们要选择其中概率最大的那个作为该字串的结果。

比如对于这样一串中文,它就有意见分歧,它有两种路径,一种是有/意见/分歧,还有一种是有意/见/分歧,我们知道有意也是一个词,假如分歧是一个女孩子,有意就见分歧。有两条路径,我们该走哪一条路径呢,这两条路径我们就要通过概率计算。

image.png通过概率计算,这是他的计算过程,细节就不和大家细说了,你们应该很熟悉,也就是每一个词在整个语料里面,在整个文档集合里面统计 它出现的概率,我们有这样一张概率表,那么我们再做它的联合概率,有/意见/分歧的概率是1.8*10-9,有意/见/分歧的概率是1*10-11。前面的分词概率就大于后面的分词概率,最后的分词就是有/意见/

分歧。

我们再来了解一下最短路径分词方法.它的主要方法是在词图上选择一条词数最少的路径,最少的路径。

它的优点好于单向最大匹配法,大家看看如果用最大匹配法,他有六个分词独立、自主、和、平等、互利、的、原则。如果用最短路径法只需要五个分词,这个具体的细节你们去考虑一下。最短路径法也有它的缺点,就是无法解决分词歧义,就是分词的歧义问题。你比如说结合/成分/子时,它的分词是3个,但你结合成/分子/时,也是三个分词,就产生歧义问题了,很难解决,下面这个就更有代表性了,他/说/的/确实/在理,和他/说/的确/实在/理,都是最短路径,都是五个词,所以很难解决分词歧义问题。

 

二、分词难点

我们介绍了三种分词方法,除此之外还有两个分词难点,一个是分词歧义问题,就有多种可能性,关于分词歧义和他进一步的细节,我们课里就不在介绍了,后面有思考题让同学们来思考。

我们来看另一个难点,也就是未登录词识别,未登录词也就是词典中未有的词。有些词在词典里是不可能有的,比如数字、命名,像人名、地名、机构名、专业术语在词典里基本上不可能有的,还有一些特殊的词。那么对于未定义词,也就是未登录词的一般的方法,规则的方法或者概率统计的方法.我们来看一看数字识别的常用方法。数字识别的经典方法是用正则表达式,这一相关的知识我们会在下一章文本数据采集和处理里面会介绍。

那么识别分数日期我们就用正则表达式的方法,正则表达式就是有这些通配符,元字符他有特定的语法,然后到文本串里找相应的内容。比如[]就是表示一个范围。识别百分数也是用正则表达式,用正则表达式这样一种语法。包括十进制数字的识别都是正则表达式识别.

我们再来看一下对于中文姓名的识别。中文姓名识别如果用规则的话,我们可以制定一些规则。

比如姓是哪些,哪些字在名字里不会用,名字里面会有一些前缀后缀,这是用规则的方法,当然现在用机器学习的方法的话,比较重要的一个是命名实体的识别方法,我们在以后的课题里也会提到。

他所谓的命名实体是指人名,所谓的机构名,还有地名,就地理位置等等。可以用一个非常好的命名实体的方法来解决。

image.png

相关文章
|
27天前
|
人工智能 数据可视化 API
语义分割笔记(一):基于PaddleSeg使用Transfomer模型对航空遥感图像分割
这篇博客介绍了如何使用PaddleSeg和Transformer模型SegFormer B3对航空遥感图像进行语义分割,包括项目背景、数据集处理、训练步骤和代码实现。
60 1
语义分割笔记(一):基于PaddleSeg使用Transfomer模型对航空遥感图像分割
|
2月前
MUMU:用文本、图像引导,多模态图像生成模型
【9月更文挑战第19天】随着人工智能技术的发展,多模态模型因其能处理文本、图像、音频等多种信息而备受关注。在图像生成领域,一种名为MUMU的新模型展现出巨大潜力。MUMU可接收文本和图像提示并生成相应图像,如根据“一个<图片:男人>男人和他的<图片:狗>狗在一个<图片:卡通>动画风格中”生成图像。通过训练包含文本-图像数据集的视觉-语言编码器及扩散解码器,MUMU能实现风格转换和角色一致性等任务,并在图像编辑和合成方面展示出潜力。然而,其仍受限于复杂场景处理能力和计算资源需求。论文详情见链接:https://arxiv.org/abs/2406.18790。
36 1
|
人工智能 数据挖掘 PyTorch
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取
【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取
81 1
|
6月前
|
存储 编解码 数据库
基于文本嵌入和 CLIP 图像嵌入的多模态检索
基于文本嵌入和 CLIP 图像嵌入的多模态检索
365 0
|
机器学习/深度学习 Serverless 语音技术
多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
1129 0
|
机器学习/深度学习 文字识别 计算机视觉
文本识别 CRNN
文本识别 CRNN
306 0
|
机器学习/深度学习 并行计算 PyTorch
循环神经网络实战案例——实现文本情感分类
循环神经网络实战案例——实现文本情感分类
160 0
|
人工智能 自然语言处理 开发者
文本特征提取-上|学习笔记
快速学习文本特征提取-上
文本特征提取-上|学习笔记
|
自然语言处理 数据挖掘 开发者
文本特征提取 2|学习笔记
快速学习文本特征提取 2
文本特征提取 2|学习笔记