开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:文本分类】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15461
文本分类
六、文本分类的简史
下面来看文本分类化成了一个历史,比较早期的是那种计算机的,像1998年之前,但是文本分类还是依赖于专家,人工处理,耗时费力,比如说有很多那种中途分类法,中国图书分类法,然后要对这个文本进行分类,早期还是非常麻烦的。后面科学发展的机器学习,机器学习是要做特征提取,文本表示,但特征工程质量不是很高,分类的话也不是非常省效,比如说可以达到95%以上可能是比较难的,2013年之后就是分布表示,利用神经网络,当然这节课可能会学到一些数据科学的内容,后面要交流这个只能分步学习了,计划里面后面是分步学习,但是大家有这样一个基础之后同学们扩展起来应该很快的,上一次的作业,看到哪个request的同学们要解决这个post的问题的话,班上有几个同学代码能力很强的,都解决了。分布式表示神经网络,是在2016年-2018年,这几年发展特快,这几年已经跟不上了,我们正处于一个非常好的时代,年纪大了跟起来还会花巨大的精力的,看这个2013年-2016年还处于这个神经网络,到2016年-2018年就开始循环使用网络TextRNN,然后2018年-2020年的话,可能有很多的词向量新的一些表示方法,去年很热门的BERT模型,今年的话又要变化了,就是GPT3,它在的一些参数的翻译,就是已经翻译的参数了,就是希望文本分类能够理解,文本分类大家知道进行语义理解的话,现在一条路径证明是可行的就是量化表示,特别是词向量的分布式表示,所以统计数学专业强大时代已经捅完了,这是什么呢?
找到这样一个路径,不能像以前,以前用的是词表,或者还有一条路径,大家都知道就是把概念等等做出来,就是像那个叫本起,大家都看过本起,直接把概念分析建立起来,但是它的好处是进展很大,在2000年左右就开始研究本起,但是很难找到效率,2006年研究生的时候要写一篇毕业论文,后面发现这个东西搞这个东西要碰硬产品,要攻克一个项目是很痛苦的,每一个领域做得非常痛苦,要放框架去构造一个本起,本起体系就是把概念体系全部建立起来,大家交流解释一些文本语义的话,就有两个途径,一种相当于把概念体系健全,就像一个专家把课程技术全部学会了,老法师老专家老教授什么都有了,概念都有了,这样来解决文本语义,另外一种途径就是魔术识别,像具体学习,向这样一个角度发展,后面证明在企业里面应用的话还是这一条路径是更容易做工程化,首先在学术上作比较,更容易做工程化,所以在这一条途径上发展很快,如果说同学们在里面的贡献能够授权之中,做成向量的一种新的表示,然后语义能够更强,文本里面各种歧义,各种不同场合然后能解决的话那才叫起到一个新的高度,人工智能的话,大家都知道,那个感知的人工智能,感知就是类比人做出来,包括专家才明白,才能做出来感知智能,下一站的人工智能是叫认知智能,认知智能里面最大的一块不同是文本语言的问题,认知,是可以推理的,以上就是讲的是一个文本分类的简史,大致如下图:
希望大家可以加强并知识,看看能把统计数学这样的一些知识运用到这里边去。
七、浅析流程图
来解释一些图,比如说TextCNN如图所示:
再到后面的TextRNN
RNN可以有双向的LSTM键,前面是构成显示器构成的,然后后面是用神经网络,RNN用的话循环神经网络,下面的话是Bert模型,
可以在两大部队一个是异性链,一个是微调,大家看过资料都理解的。
八、机器学习方法
现在用的比较多的是机器学习方法,现在就是要补一个内容,文本分类的流程如下图:
用机器学习的方法可以看到上图的最左边,文本在标签的就是在类别的,因为是有独立的分类,进行特征提取,要做传统机器学习的话,要做特征提取,特征提取前面有学会一个方法,TFIDF、Ngram、还有根据一些词典来构造spam,在特征提取里面到底哪一个特征适合,后面可以用一些特征显示类的一些方法,我们可以看到一些降维,就是一些特征选择的方法,再选择一些分类器,进行文本的分类,分类器可以选择一些传统机器学习的方法,这里前面的那些方法的话,也不一定是哪个方法就特别的好,传统机器学习,但是大家要注意,警觉学习的话在很多时候启用的效果都比较好,下面列了几个居空数据的方法,随机森林、XGBoost,大家都可以理解都是一些深度学习的方法,这里就是XGBoost,后面还有一些更深技术的发展,叫做技术学习和数据挖掘、竞赛压缩包、键合数应包,基本上那些大赛大家应该都看过那些网站,基本上很多竞赛里面前几名很多的都是用的深度学习,大家在数据学习的课程里面可以用到这个方法,一样的道理,文本分类是有一个监督的分类技术,做好模型之后需要进行评测,要测试、评估,在上一章稍微给大家介绍了一下分类以及分类的评估,大家可能有了相关知识,大家有些已经复习了一下,做好了之后就进行模型部署,新的文本过来之后可以做一个预测,这就是一个机器学习的方法。
九、深度学习方法
如果是做深度学习的,如下图:
大家可以看到和前面相比较的话,特别大的一个差异是不需要那个特征整合的那个内容,上一个学习方法就会提到特征提取和特征选择,做深度学习的话,它是自动系统特征提取,中间生成神经网络,构成神经网络,就自动特征提取,主要是选择一些神经网络的模型,像这些模型可能会用到一些技巧,用一些词向量的表示方法的选择,在这里也列了一些,这里就是文本分类的流程。
十、传统机器学习和深度学习相比较
时代发展很快,可以用后面的方法解决问题,包括后面做明星关注的作业,大家可以用深度学习去解决。从明星文本里面提取,提取一些明星关注的内容,关注的一些热点、重点、焦点。
后面讲了一下文本分类的流程,再来看看传统机器学习和深度学习相比较的话,方法有一些差异,这里也列了一些,也就是它的优势和劣势,如下图: