文本分类 中|学习笔记

简介: 快速学习文本分类 中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本分类 中】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15522


文本分类 中

 

主要内容

一、文本分类的一些应用场景

二、文本分类简史

 

一、文本分类的一些应用场景

1、新闻分类、邮件过滤

各类分类、垃圾邮件,垃圾邮件分成两类:第一类为Spam ,第二类为Not Spam,此为一个文本分类的应用。

2、舆情监控

如果发生任何紧急情况,当局可以对紧急情况进行监视和分类,以做出快速响应。此为政府部门最为关注的事情。

3、感情分类&观点挖掘

之前讲解了情感分析,具体为正面的/负面的,积极的/消极的,感兴趣的/不感兴趣的,主要取决于不同的应用需求,主要应用在一些产品的评论里面,此企业单位很重视的,包括事业单位同样重视,若有负面消息方面的报道需要第一时间进行解决。

之前有一则新闻:有一研究生在地铁上有不文明行为,将垃圾随处仍在地铁上,甚至与别人发生冲突,团委第一时间辟谣,声明不是本校研究生所为,接着学院也同时进行辟谣。

4、使用类别标记产品或内容

对产品和内容使用标签对网站上的内容进行文本分类可帮助搜索引擎收录网站;研究和分析竞争对手使用的标签和关键字,竞争情报分析。例如微博里面每个人都有自己的标签,标签也是一种分类,文章分类的标签,关于财经、经济、会计、市场营销等。

5、CRM 系统中自动客户服务

CRM任务可以根据重要性和相关性直接分配和分析。它减少了人工工作,因此具有很高的时间效率。

(1)营销人员可以根据用户在线谈论产品或品牌的方式来对其进行监视和分类

(2)学术文献分类,专利文献分类,法律文献分类,专利有新的专利分类法,故对此分类就需要使用文本分类进行解决。

(3)对大型文本数据进行分类有助于使搜索更容易且更相关,简化导航来改善用户体验。

 

三、文本分类简史

image.png1998年之前,许多文本分类需要依赖专家人工处理,耗时费力,有许多分类法对文本进行分类,早期还是十分麻烦的。大约1998-2013年,发展到机器学习,特征提取、文本表示,但特征工程质量不高,分类的准确率并不高。

2013-2016年之后开始发展为分布式表示,利用神经网络,这节课之前补了一些数字科学的部分内容,故之后就不进行深度学习,原来计划是接着学习,但是已经有了基础之后,同学们可以自行拓展。分布式表示、神经网络在2016-2018年发展的巨快,2013-2016年为TextCNN,2016-2018年为TextRNN,2018-2020年,有许多新的一些表示方法如ELMO,BERT,后面还会有许多变化,例如新出的GPT3,参数为3E,希望文本能够递减。对文本进行理解,若有一条路径是可行的就为量化表示,特别是一次向量的分布式表示,故此同济数学专业越来越强大。也就是说,找到一条路径,之前是用词表,同时也还有其他路径,为将概念性的内容整理出来,就为本体。

但是本体很难搞定一种通用场景,完成一个项目还是比较困难的,每一个领域需要一群专家进行构造本体,本体就是将概念全部建立起来。解决文本的语义全部途径,一种为将概念体系健全,就像一个专家把课程知识都学会,另一种途径为模式识别,向机器学习发展领域,事实证明在企业里面第二种途径更容易工程化,故此条路径发展十分快。

若同学们做出贡献,能够研究出向量的一种新的表示方法,让它的语义更强大,文本的各种歧义及不同场合,若能够解决以上问题,人工智能将会提升一个新的高度。感知人工智能为人类专家想到的借助计算机进行制造。

所谓的下一代人工智能为认知智能,需要解决的一个最大的问题为文本语言,认知可以进行推理,以上为文本分类简史的内容。希望同学们能够加强重视,将有关统计数学的知识使用到里面。

相关文章
|
24天前
|
机器学习/深度学习 算法 数据处理
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
|
2月前
|
自然语言处理 Python
使用Python实现文本分类与情感分析模型
使用Python实现文本分类与情感分析模型
68 1
|
2月前
|
机器学习/深度学习 数据采集 存储
使用机器学习算法进行文本分类的方法与实践
本文将介绍使用机器学习算法进行文本分类的方法与实践。通过分析文本特征、选择合适的机器学习算法和构建有效的训练模型,可以实现准确和高效的文本分类任务。我们还将探讨如何处理文本数据预处理、特征提取和模型评估等方面的关键问题,以帮助读者更好地应用机器学习技术解决文本分类挑战。
|
11月前
|
自然语言处理 算法
nlp入门之隐马尔科夫模型
本文简述了隐马尔科夫模型的原理,并且使用hmmlearn库进行隐马尔科夫模型的实验
|
12月前
|
自然语言处理 搜索推荐
|
机器学习/深度学习 自然语言处理 资源调度
NLP学习笔记(二) LSTM基本介绍
NLP学习笔记(二) LSTM基本介绍
164 0
NLP学习笔记(二) LSTM基本介绍
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 自然语言处理 监控
|
自然语言处理 搜索推荐 数据挖掘
文本分类 上|学习笔记
快速学习文本分类 上
81 0
文本分类 上|学习笔记
|
机器学习/深度学习 自然语言处理 数据挖掘
文本分类 下|学习笔记
快速学习文本分类 下
78 0
文本分类 下|学习笔记

相关实验场景

更多