开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:文本特征提取-上】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15489
文本特征提取-上
内容简介:
一、文本特征提取
二、分词技术
一、文本特征提取
下面我们来学习第二节,文本特征提取,我们一般把文本的特征提取和文本的表示放在一起讲。
文本的表示就是把从文本中抽取出的特征词进行量化来表示文本信息,这里一个很革命性的定义就是特征词要进行量化,量化也就是数字化,只有数字化才能够发挥计算机强大的计算能力,实际上计算机对文本的处理能力并不强大。
有关文本表示的相关内容我们会在下一节进行讲解,这一节还是讲解文本的特征提取。我们知道文本挖掘尽管处理的是非结构化的文本数据,但是他还是要讲非结构化的文本数据转换成结构化的文本数据,以便于计算机的处理。那么,我们提取特征词,他的作用和意义是什么呢?下面我们来看一个实例。
上图是红楼梦电子小说的分词。在红楼梦里一直有一个争议,就是前八十回和后四十回是不是同一个作者。我们知道,如果是同一个作者,他的用词方式应该是相似的相同的,所以我们特征提取,可以在这方面做一些工作。大家如果想再一步了解的话,我们可以再举一个例子。金庸的武打小说和古龙的武打小说用词就有一个很大的差异。金庸的话描写很细腻,古龙的描写很简洁。
比如这样一个场景,金庸这样描写,刀光一闪,他捂着自己的脖子,感觉到怎么这么凉,然后睁大了眼睛,慢慢的思考着人生。而古龙的小说这么写,刀光一闪,人头落地。所以说这个用词的特征是差异很大的。那我们要理解文本,文本里的词汇量非常多,那我们要找到特征的,能代表文本的含义的这样的特征词,这样会方便有助于我们理解。
下面我们来进一步了解一下文本特征提取。目前大多数中文文本的挖掘系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。就是我们要找到所要求的相似的文档,可以用这个特征词作为中间形式进行计算,提高效率。特征抽取的主要功能就是再不损伤核心信息的情况下降低向量空间维数,因为原来词很多,现在找到一些具有代表意义的特征词,来降低向量的空间维数,简化计算,提高文本处理的速度和效率。文本特征抽取的方式常见的有4种,一种就是用映射或变换的方法把原始特征变换为较少的新特征,就是用少的特征代表整个文档。
第二个就是从原始特征中挑选出一些具有代表性的特征,这个和第一个有点相似。
第三个就是根据专家的知识挑选出一些最具代表性的特征,大家都知道我们这个学术论文都要提供三到八个关键词,这个关键词就是作者,我们的专家挑选出最能代表这篇文章的关键词。
第四个是基于数学方法进行选取,找出最具分类信息的特征。我们都知道人工智能里面核心的一个技术就是数学,所以大家学统计专业也非常强大。
那么,我们要用数学方法来选取特征,那么我们常见的四种方法里,推荐的还是第四种方法,用数学的方法,然后进行特征选取。那用数学方法进行特征选取,就要掌握到特征提取的评估函数。
那要构造特征函数的话,我们就要对特征集合里的每一个特征进行评估,并对每一个特征进行打分,这样每个词语都获得一个评估值,这个值就称为权重。
决定文本特征提取的效果的主要因素是评估函数的质量,常用的评估函数包括以下几种,比如说第一个,在我们的文件情报专业里面比较多的,TF-IDF,TF是词频,IDF是反向的文档频,然后还有互信息,期望交叉熵等。还有最近几年比较热 的分布式表示词向量技术,那么它具有代表性的,最早的影响最大的是word2vec,还有后面进一步发展的glove,非常热门的bert。如果同学们进一步学习的话,再bert上多花点功夫。
二、分词技术
我们重点来讲解一下文本特征提取的分词技术,分词技术特别重要,我们来看一些分词的实例。比如说和平民主,这就有很多的分的可能性“和平”“民主”“和”“平民”“主”实际上这些都是一些词。
下面还有一些例子,分词就有多种可能性,也就是分词就歧义,这是分词里非常大的一个难点。
我们再来看一下分词的基本方法,最大匹配法,最大概率法分词,最短路径分词方法,当然还有一些其他的方法。比如说基于理解的分词方法。分词的难点主要有两点,一种是分词有歧义,它有多种可能性,到底选哪一个,有歧义。
还有一个未登录词识别。实际上分词最后需要一个词典,词典里有的词能分出来,没有的词就是未登陆词,那未登录词如何解决,这又是一个难点。