开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:文本分类 中】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15522
文本分类 中
主要内容
一、文本分类的一些应用场景
二、文本分类简史
一、文本分类的一些应用场景
1、新闻分类、邮件过滤
各类分类、垃圾邮件,垃圾邮件分成两类:第一类为Spam ,第二类为Not Spam,此为一个文本分类的应用。
2、舆情监控
如果发生任何紧急情况,当局可以对紧急情况进行监视和分类,以做出快速响应。此为政府部门最为关注的事情。
3、感情分类&观点挖掘
之前讲解了情感分析,具体为正面的/负面的,积极的/消极的,感兴趣的/不感兴趣的,主要取决于不同的应用需求,主要应用在一些产品的评论里面,此企业单位很重视的,包括事业单位同样重视,若有负面消息方面的报道需要第一时间进行解决。
之前有一则新闻:有一研究生在地铁上有不文明行为,将垃圾随处仍在地铁上,甚至与别人发生冲突,团委第一时间辟谣,声明不是本校研究生所为,接着学院也同时进行辟谣。
4、使用类别标记产品或内容
对产品和内容使用标签对网站上的内容进行文本分类可帮助搜索引擎收录网站;研究和分析竞争对手使用的标签和关键字,竞争情报分析。例如微博里面每个人都有自己的标签,标签也是一种分类,文章分类的标签,关于财经、经济、会计、市场营销等。
5、CRM 系统中自动客户服务
CRM任务可以根据重要性和相关性直接分配和分析。它减少了人工工作,因此具有很高的时间效率。
(1)营销人员可以根据用户在线谈论产品或品牌的方式来对其进行监视和分类
(2)学术文献分类,专利文献分类,法律文献分类,专利有新的专利分类法,故对此分类就需要使用文本分类进行解决。
(3)对大型文本数据进行分类有助于使搜索更容易且更相关,简化导航来改善用户体验。
三、文本分类简史
1998年之前,许多文本分类需要依赖专家人工处理,耗时费力,有许多分类法对文本进行分类,早期还是十分麻烦的。大约1998-2013年,发展到机器学习,特征提取、文本表示,但特征工程质量不高,分类的准确率并不高。
2013-2016年之后开始发展为分布式表示,利用神经网络,这节课之前补了一些数字科学的部分内容,故之后就不进行深度学习,原来计划是接着学习,但是已经有了基础之后,同学们可以自行拓展。分布式表示、神经网络在2016-2018年发展的巨快,2013-2016年为TextCNN,2016-2018年为TextRNN,2018-2020年,有许多新的一些表示方法如ELMO,BERT,后面还会有许多变化,例如新出的GPT3,参数为3E,希望文本能够递减。对文本进行理解,若有一条路径是可行的就为量化表示,特别是一次向量的分布式表示,故此同济数学专业越来越强大。也就是说,找到一条路径,之前是用词表,同时也还有其他路径,为将概念性的内容整理出来,就为本体。
但是本体很难搞定一种通用场景,完成一个项目还是比较困难的,每一个领域需要一群专家进行构造本体,本体就是将概念全部建立起来。解决文本的语义全部途径,一种为将概念体系健全,就像一个专家把课程知识都学会,另一种途径为模式识别,向机器学习发展领域,事实证明在企业里面第二种途径更容易工程化,故此条路径发展十分快。
若同学们做出贡献,能够研究出向量的一种新的表示方法,让它的语义更强大,文本的各种歧义及不同场合,若能够解决以上问题,人工智能将会提升一个新的高度。感知人工智能为人类专家想到的借助计算机进行制造。
所谓的下一代人工智能为认知智能,需要解决的一个最大的问题为文本语言,认知可以进行推理,以上为文本分类简史的内容。希望同学们能够加强重视,将有关统计数学的知识使用到里面。