开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:文本分类】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15461
文本分类
内容介绍
一、回忆文本挖掘的过程
二、文本挖掘的文本表示
三、文本分类的定义
四、文本分类的应用领域
五、文本分类的应用场景
六、文本分类的简史
七、浅析流程图
八、机器学习方法
九、深度学习方法
十、传统机器学习和深度学习相比较
一、回忆文本挖掘的过程
先来回忆一下文本概述里提到的文本挖掘的过程,大致过程如下图:
这个过程看一下,已经有了文本源,进行文本分析,文本分析主要是向文本进行一些优化,要向非结构化的文本进行结构化,结构化对于中文来说就是进行分词,英文的话进行分词比较容易,分词里面可能还有些特别的未登录词,比如数字、日期等等,在应用里面也要解决这个问题。
在某些应用场合里面光把文本把分离出来还不够,可能还要了解文本的结构,就是词法和序法要结合的,再下一步就是文本的特征提取,因为分配到的词可能会特别的多,希望能找到权重比较高的那些词,也就是所谓的特征词,所以这里有一个叫量化的方法,这个方法也蛮多的,这里面给大家详细介绍了两个,一个是TFIDF,一个是词向量,有了特征词权重提取之后,权重比较高的应该是关键词,还需要进一步去做关键词的摘要,可以去做一些特定信息的抽取,可以抽取一些命名词曲、词曲关系,关键词的摘要可以做些摘要,不光是关键词本身了,这边是跟特定信息有关的,进一步就是比较大的综合性应用了,像全文检索、文本检索就是最主要的一个应用,如果
在网上查到一个资料,就是北京大学的一个文本挖掘的过程,基本上就是讲文本检索的,后面还有文本分类、文本聚类、文本过滤,这个TDT的话就是话机检测和跟踪,后面就是分享分析,还有就是本起、还有做去文本的、各种技术普普等等,所以这个应用是非常多的,每一个应用点的话是可以做毕业论文的,对于研究生来说可以做毕业论文,就是各大应用,在一些单位里面的话,在一些单位里面会这些应用里面审核到企业里的一个系统里面,所以后面还有用户界面,还有一套双面用户使用的这样的一些功能,做一些应用系统的审核,最后是用户使用,在这里讲了文本挖掘的过程,是从开始的文本源一直到后面可以融合到企业的系统里面、前面的知识结构。
二、文本挖掘的文本表示
知道这个文本挖掘非常关键的是文本的表示,如下图:要将整个文本建成一个词和文档的矩阵,就可以把文档放在前面,文档的矩阵,就是文档特征词的矩阵,这边的话行和列的话是可以互换的,这张图里面每一列就是一个文档,每一行就是一个词汇,中间就是放特征词量化的权重,这就是前面的知识。
三、文本分类的定义
再来看一下文本分类的定义是什么,文本分类就是根据预先定义的主题类别,就是文本本来是有一个类别的,按照预先定义的类别按照一定的规则给文档集合中未知类别的文本自动确定一个类别。就是置换模型之后,再来预存一些未知类别的文本是哪一类,前面是需要有一定类别的文本来置练模型,所以本质上还是数据挖掘是一样的,它是一个分类模型,是一个有监督的分类模型,也就是将文档与所属类别关联的过程,应用单词可以是Classification和categorization,可能是这样的一些词汇,如果要其他的话来描述的话,文本分类器有文档集合、有类别的结合,有D和C,有L个类别,每个类别要通过标签进行描述,每一个类别有它的标签,这个类别列了L个,实际应用里面可以是二元分类,可以是多元分类,多个结构就是多元分类,两个就是多元分类。如果用数学形式表达的话,就是加一个函数,就是f放在文本(text)上面,让它找到它的label,它的标签,也就是f(text)-label,text可以是词,可以判断一个词是什么类别,可能是一个短语,可能是一个句子,可能是篇章,也有可能是判断一个对话,是词的话大家就比较容易理解,一个词对大家判断就是词性,词的词性本身就有一个分类声明,这个词就代表这某一种成长,也就是一个分类类别,这就是一个文本分类器。
四、文本分类的应用领域
对于文本分类的应用领域来详细看一下,应用领域也是非常多的,在这里只是列了一些比较常用的,先来看一下:
是按12345的顺序来看的,一个是信息检索,信息检索应用是非常正宗的,文本分类早期的元素就是要解决这个检索额问题,信息检索是一个全文检索,不是数据库的检索,信息检索坚实从非结构化文档中获取需求,需要将文档分类方法应用于信息检索,检索的是哪一类的文本,分类文章起到一个很重要的作用。
第二个大的应用就是信息过滤,信息过滤是选择相关信息,选择或者不选择或者拒绝不相关信息,进行过滤,就是符合要求的留下来,不符合要求的就过滤掉,就是信息过滤,文本分类过滤的话很多会使用概率模型,用于通用的信息过滤,下一个就是情感分析观点挖掘,这是第三个应用,情感分析后面会专门讲一下,大家可能已经熟悉了,但是课程里面还是要给大家简介一下的,主要是用于文本中的观点、情感主观性的一种识别、计算,如果在情感分类上面的话也是一种文本分类技术。然后就是推荐系统,推荐系统里面可以根据之前过滤的推荐,也可以根据内容推荐,内容的话有很多商品用户的描述,商品用户的描述就是文本的,可以做文本分类,推荐系统。我们还可以做文档摘要,基于文本做摘要,比如明星问题里面,可以做一些摘要,可以从中抽取一些观点,抽取一些数据的关系,讲的就是系统应用,应用还有一些,但是在这里列的是常用的。下一个就是知识管理,现在已经进入知识社会时代了,知识管理里面也有一些功能,可以文档分类来识别,就是文档分类是挖掘基于文档的中间形式的最常用方法,要从文本提取知识的话也会用到文本分类,后面是文本分类应用领域,大家可以再去扩展。
五、文本分类的应用场景
来看一下文本分类的一些应用场景,前面是它的主要应用领域,大的领域,下面先列细的场景,第一点是新闻分类、邮件过滤,是很具体的,邮件可以分成两类,就是Not Spam和Spam,就是一个文本分类的应用。再一个舆情监控,现实生活中最关注的。前面讲的情感分析,在这里讲得具体一点,正面的、负面的、积极的、消极的、感兴趣的不感兴趣的,不同用户的需求,主要应用于应用产品的前端领域,事业单位很重视,事业单位如果有负面报道的话非常关注舆情来解决,在这个例子上面,有些研究生不文明,好像是地下的垃圾一大堆,让别人说,有一些人为了点点事吵架打架,后面说是我们学校研究生,后面我们学校第一时间辟谣,他不是我们学校的研究生,我们学校有个学院就先辟谣,这个是很关注的。下一个就是使用类别来标记产品或内容,对一些产品化的内容进行打一些标签,做一些标记,就像微博里面的一些人打一些标签一样的,用户画像,打标签,打一个标签也是一种文本分类,如下图:
可以看到这个标签有了Business Article,对于这个文章打个标签,也就是分个类,哪一类的,关于财经的,关于经济的,关于会计的,关于市场的,关于市场营销的。后面还有CRM系统中自动客户服务,就是营销人员根据产品和品牌线上的评论,进行监控,还有学术文献的分类、专利文献的分类、法律文献的分类,专利的话有了新的专利法,新的专利分类法,到底要分哪一类,也是需要通过这样一个文本分类的形式来解决的,上面所说的就是它的应用场景,大家可以提出更多的场景,可能有大的领域,文本检索就是一个大类。