文本分类 上|学习笔记

简介: 快速学习文本分类 上

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本分类 上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15521


文本分类 上

 

主要内容

一、文本挖掘过程

二、文本分类的定义

三、文本分类器

四、文本分类的应用领域

 

一、文本挖掘过程

image.png观察上图可知,首先建立了文本源,然后进行文本分析,主要是将文本进行结构化,将无序的非结构化的文本进行结构化,结构化里面对于中文而言,就是分词的结构化,对于英文中的分词简单一些。分词里面有特殊的,例如数字、日期等,在某些应用中需要解决此问题。在某些应用场合里面,只将文本分成词是不够的,同时需要了解文本的结构,与词法句法相结合。

接下来为文本的特征提取,因为被分到的词数量可能会特别多,故此需要找到权重较高的词,即所谓的特征词。故出现了特征词量化的方法,方法有许多种,课程中介绍了两种,分别为fidf 以及词向量。

特征词权重提取之后,权重较高的为关键词,以此进一步提出关键词的摘要,可以做一些特定信息的抽取,抽取一些命名诗集,诗集关系,上面为关键词的摘要,只与关键词本身有关,此为关于特征提取方面。进一步为大型综合应用,其中文本检索为最主要的部分,同学们可以去网上查找资料,是北京大学撰写的,基本上是讲解文本检索内容。同时还有文本分类、文本聚类、文本过滤,TDT(画集检测与跟踪),此后还有情感分析、自动问答、知识图谱等。

此应用点是十分多的,每一个应用点都是可以编写毕业论文的,对研究生来说可以以此编写毕业论文。各大应用在一些单位中,会将将这些应用都整合到一个系统里面,故此之后还有用户界面,里面有方便用户进行使用的功能,做一些应用系统的整合,再给用户进行使用,此为文本挖掘的大致过程。

从文本源到最后可以融入到企业的系统里面。之前讲解过文本挖掘最重要的为文本表示,需要将词变为词与文档的矩阵,有时将文档放置在前面,文档矩阵、文档特征词的矩阵,行与列之间可以进行互换,图中的每一列为一个文档,每一行为一个词汇,单元格中间为特征词的权重。以上内容为之前讲解过的内容。

 

二、文本分类的定义

文本分类是指根据预先定义的主题类别,按照一定的规则给文档集合中未知类别的文本自动确定一个类别。指做好模型之后,再进行预测未知类别的文本的类别,前提为有一定类别的文本进行确定类别的模型。

本质上与数据挖掘是一致的,是一个有监督的分类模型,是一个将文档与所属类别关联的过程。英文单词可以为 Classification 或者 categorization 。

 

三、文本分类器

文档分类器是对文本分类的细化过程,有文档集合(D)、类别集合(C),其中有L个类别,每个类别需要通过标签进行描述,每个类别都有属于自己的标签,此类别有L个,实际应用里面可以是二元分类,也可以是多元分类,多个为多元分类,两个为二元分类。

用数学语言表达,一个函数在text(文本)上找到label (标签),其中text 文本可以是词、句子、篇章、对话等。词比较容易理解,即判断词的词性,词到词性本身为一个分类问题,若词代表某一种情感,也是一个文本分类问题,此为文本分类器。

 

四、文本分类的应用领域

1、信息检索

信息检索使用是比较正规的,文本分类早期的研究就是解决信息检索问题。信息检索为全文检索,而不是数据库的检索。信息检索是从非结构化文档中获取需求,需要将文档分类方法应用于信息检索,检索为类别,分类在里面具有十分重要的作用。

2、信息过滤

信息过滤是指选择相关信息或拒绝不相关信息,即符合要求的留下,不符合要求的过滤,概率模型通常用于信息过滤系统。

3、情感分析

情感分析是一种用于识别文本中的观点、情感和主观性的计算方法,情感分类即是一种文本分类技术。

4、推荐系统

基于内容的推荐系统根据商品的描述和用户兴趣的概况向用户推荐商品;商品用户的描述为文本的,故可以对此进行文本分类,再进行推荐系统。用户的个人资料可以从用户对商品的反馈(搜索查询或自我报告的历史记录)以及个人资料中的自解释功能(查询的过滤器或条件)中得知。

5、文档摘要

名声问题里面可以做摘要,应用于观点,抽取一些实际关系。用于文档摘要的文本分类,其中文档的摘要可以使用原始文档中未出现的单词或短语。由于在线信息的迅速增加,也需要多文档摘要。因此,许多研究人员专注于使用文本分类从文档中提取重要特征的任务

6、知识管理

知识管理里面有些功能可以通过文本分类进行解决,文本数据库是信息和知识的重要来源,在知识提炼中,模式或知识是从可以是半结构化或结构化/关系式的即时形式中推断出来的。

给定的中间形式可以基于文档,以便每个实体代表特定领域中感兴趣的对象或概念。文档分类是挖掘基于文档的中间形式的最常用方法,若要从文本里面提取知识,也会使用到文本分类,以上内容为文本分类的应用领域,同学们也可以进行拓展学习。

相关文章
|
2月前
|
机器学习/深度学习 数据采集 监控
【NLP-新闻文本分类】2特征工程
本文讨论了特征工程的重要性和处理流程,强调了特征工程在机器学习中的关键作用,并概述了特征工程的步骤,包括数据预处理、特征提取、特征处理、特征选择和特征监控。
18 1
|
5月前
|
自然语言处理 Python
使用Python实现文本分类与情感分析模型
使用Python实现文本分类与情感分析模型
95 1
|
自然语言处理 算法
nlp入门之隐马尔科夫模型
本文简述了隐马尔科夫模型的原理,并且使用hmmlearn库进行隐马尔科夫模型的实验
|
自然语言处理 搜索推荐
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 人工智能 监控
文本分类 中|学习笔记
快速学习文本分类 中
文本分类 中|学习笔记
|
机器学习/深度学习 自然语言处理 数据挖掘
文本分类 下|学习笔记
快速学习文本分类 下
文本分类 下|学习笔记
|
机器学习/深度学习 自然语言处理 监控
|
机器学习/深度学习 自然语言处理 监控
情感分析 上|学习笔记
快速学习情感分析 上
情感分析 上|学习笔记
|
机器学习/深度学习 自然语言处理 监控
情感分析|学习笔记
快速学习情感分析
情感分析|学习笔记
下一篇
无影云桌面