开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:文本分类 下】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15523
文本分类 下
内容介绍
一、TextCNN、TextRNN、Bert
二、文本分类流程
三、深度学习的方法
四、文本分类的流程
一、TextCNN、TextRNN、Bert
RNN可以用双向的LSTM,那么前面的话,图一是选节时节网络,杜森感知器。图二是循环神经网络,然后在下面到这个Bi模型可以带两大步骤,一个月训练。一个微调。
二、文本分类流程
发展过程当中,现在用的比较多的还是机器学习方法,因为深度学习的话要补一些内容的
文本分类的流程,用机器学习的方法的话,。最左边的文本带标签的,带类别的,是有监督的分类,要做传统机器学习要做特征提取。关于特征提取有一些方法,基于一些词典提取一些词袋。特征提取里面到底哪一个特征好坏,后面可以用一些特点选择的一些方法,如降维,特征选词的一些方法。选择一些分类器进行文本的分类,分类器可以选择那些传统的机器学习的。
列举一些GBDT学习方法 如,随机森林,XGBoost,这都是一些GBDT学习的方法。那么今天学习里面这个XGBoost,当然会有更新的发展。叫做机器学习数据挖掘 有竞赛叫倚天剑和屠龙刀,基本上那些大赛前几名都会用到GBDT学习方法。一样道理,文本分类,是有监督分类技术,后面模型完成需要评测,测试。评估。模型部署是新的文本过来做预测,以上是机器学习的方法。
三、深度学习的方法
深度学习跟之前特别大的差异是不需要特证工程和特征选择的内容嘛,机械学习做了特征提取和特征选择。
深度学习不需要人工干预,自动化特征提取。绿色圆圈代表深层神经网络,多层神经网络。
自动特征提取,主要是选择神经网络的模型。像这些模型可能在当中会用一些技巧,用一些词向量表示的一些方法的选择
时代发展快,用现在的学习方法去解决问题,小组可以用深度学习去解决,如从民生的文本里面去提取一些民生关注的内容,关注的热点,重点,焦点。
四、文本分类的流程
跟传统机器学习和深度学习相比较有一些差异。
关于决策树劣势是容易过拟合。随机森林优缺点是视觉上不太容易解释,过度拟合很容易发生等等。
条件随机场是做作文本序列分析,基本上是一个标配,一般都要用到。像有些专业,做信息管理,情报,商业分析。刚开始做条件随机场是比较抽象的。深度学习是现在这个时代的宠儿是应该去掌握的
以上是文本分类技术概述内容,给文本分类的一个理论课的介绍就到这里,里面一些公式推导就不一一列举。