开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:文本挖掘概述 下】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15488
文本挖掘概述 下
内容介绍
一、文本挖掘的主要应用
二、智能信息的主要意义
三、文本挖掘技术的难点
四、通用的文本挖掘模型
五、文本挖掘的重要性
一、文本挖掘的主要应用
来看看文本挖掘的主要应用,前面讲过检索技术的提升需要深入的确定,
可以看到一些新时代的引擎这样的一些汇聚阶段,这一个互联网的内容安全,比如说互联网上的舆情言论,还有非法内容的发布,就是一些信息的监控和过滤,进行的一些知识的发现等等,互联网安全,这个在我们国家特别重要,需要文本挖掘,利用文本挖掘的技术,就是企业的知识管理,知道管理信息系统以及积压系统,都有这个知识管理,把一些企业人员的经验和知识,管理人员的经验和知识,一般都是在文档里面和方案里面放的,怎么把它集中在一起,再利用一些技术进行管理,再进行运用,合格就是企业的管理知识,首先是大家应该比较能理解的就是Call center notes categorization就是呼叫中心的,还有一些企业的管理系统CRM systems,不仅有结构化的因素,里面含有大量的文本信息。
就是个人智能信息访问,因为个人信息需求越来越大,个人可能需要一些智能信息模式,然后汇总,收集个人信息之后就可以方便管理,同样也提供个人地址,他也提供个人的信息模式,让别人去了解他,可以跟他合作。
二、智能信息的主要意义
现在讲的是智能信息的主要意义。现在来看一下为什么要做新一代的搜索引擎,来看看下图的数据:
在百度里面搜“王小丫老公”,它会告诉你,根据法律规定,内容不可以显示,但是搜“王小丫丈夫”的话,那么它会告诉你王小丫丈夫是谁,也就是说找出一个这样的搜索引擎,百度认为这个老公和丈夫是一个概念,很显然需要在语义方面的理解的搜索引擎。再看一个例子,先看下图:
在百度里面搜索“姚明的女儿的妈妈的身高”,也就是说要满足这样的一个语义表达的要求,从字面看人可能理解,就是找到姚明老婆的身高,但是按照传统的关键词检索,可能就分解成“姚明”、“女儿”、“妈妈”、“身高”,有可能找到的是“姚明的女儿的身高”,或者“姚明妈妈的身高”,而希望能达到语义理解,就是“姚明的老婆的身高”,现在百度已经可以做这样的一个检索了,叫做搜“立方”,在谷歌里面叫做搜索引擎,在百度就叫做“搜立方”,就是可以做一个语义的关系,就是一个对于时间有关系,大家可以看到一个叫做“叶莉”的身高也就是姚明老婆的身高。
三、文本挖掘技术的难点
文本挖掘技术其实是比较困难的,它的难点是这样的方面,一个是语言难点,知道文本不是给计算机用的,主要是给人类看的,就会有复杂的语言结构,包括语法语义,更困难的是歧义,就是各种歧义,这种歧义就是问出来,到底是哪一个意思,计算机的理解可能就相交的,再一个就是多语言,各种语言,比如说各种语种,比如说中日英多语言,这是语言难点。再一个难点就是算法难点,因为在传统数据挖掘采用的是结构化的数据,结构化数据的信息是有限的,文本挖掘它的算法难点就是有大规模的数据集,就是更庞大,研究所里面有90%都是文本信息。
然后第二个是高维,结构化的数据数据挖掘面对的结构化数据它的维度往往是有限的,几百维、几千维都是可以得到的,在文本挖掘里面这个维度可能就是一个词,如果研究一万、十万篇文献的话,这个词的话可能就是几十万、几百万的,就是高维的,然后就是过于适应,就是研究一些方面的文本,比如说研究还款方面的文本,他们的差别很大,很难匹配,就容易过于适应,还有一个就是文本里的数据和知识就发生一些变化,每年都有一些新的词汇,有些词的语义是在变迁的,比如说早期的同志的含义跟现在同志的含义是不一样的,里面还有一些干扰的数据就是噪音数据,大家在一些社交网络在一些论坛里面,里面会含有一些大量的噪音数据。下一个难点就是挖掘出的模式的可理解性,像传统的数据挖掘,挖掘出来的内容的模型比较容易解析,也比较容易理解,文本挖掘就是文本里面的那些词之间的关系,和谁跟它搭配,词和词之间的固定的结构,理解上面也是比较困难。
四、通用的文本挖掘模型
下面来看一下通用的文本挖掘模型,它由这几方面构成的,首先是要有文本源,就是文本数据在哪里,在写这个类似local的实验里给大家一些功课的文本数据语言,如果处于之间的项目的话,再去寻找它是什么类型的文本源,也就是说要做房地产领域短租市场的临时监控,就要了解短租市场一般租客在哪里发表他的意见,如果要做一些明星关注的一些话题的话,就要看这些话题在哪些网站上面。
再下一步就是要做文本分析,文本源有了之后就做一个文本分析,文本分析的话也是要将非结构化的文本转变成有结构的,就是讲文本解释的是一个非结构化的数据,但是它最终还是要转变成结构化的数据,这个结构化里面有单位词,所以要对文本进行分词,这对中文来说特别重要,然后也要处理一些特别的词,比如数字、日期以及一些专业名词,还要做词性标注,进一步可以做文本的结构分析,就是文本里面的主谓宾、文本里面的依存关系、语法分析等等。再下一步就是文本的特征提取,因为文本里面含有大量的词汇,如果全部用的话效率太差,那能不能找到那些关键词,再找那些词汇呢,也就是特征提取,就需要一些特征词及权重的表达方法,也可以做关键词摘要还有特定信息抽取,特征信息抽取,特征名词也就是人名、机构名、地理位置、专业名词等等,前面这些基础准备好了以后就可以做文本挖掘的各种应用了,这个框子里面主要是各种应用,比如文本挖掘的文本检索、文本的分类、文本的聚类、文本的过滤、作为页面画质的检测和跟踪(TDT),再整合在一个系统里面供用户使用,这就是一个一般的文本挖掘模型,如下图:
五、文本挖掘的重要性
再来看看文本挖掘的重要性,现在正处于非结构化数据的海洋,如果说结构化数据是陆地的话,非结构化就是海洋,世界上更大面积的是海洋,非结构化数据主要有年报、投诉文本、微博、舆情、客户咨询、客户评论等等,大量的文本数据构成了一个海洋,知道文本数据它的处理,前面讲了文本挖掘的模型,这里来看看对于非结构化的数据他处理的步骤,先是要有文本源,文本源确定之后就要做数据准备,要用网络查重去发掘、去预处理一些重复的数据,文本数据进一步进行分词处理,进行文本数据的结构化,再建一个模型,比如说传统的一些数据的分类模式来建模,又可以从文本数据进行一个信息提取,再进行各种应用、过程,
如下图:
这里举一个例子,比如说可以做文本摘要,看评论更轻松。网上会有大量的评论,可能一天的评论某一个公司来监控的话,可能就是几万或者几十万条,比如说海底捞,全国开了那么多的店,上面的评论量是巨大的,人工看的话一个个看就会很久,做一个文本摘要,把这些要点提取出来,这样看的话就比较轻松了。
再来客服的满意度的投诉的问题,投诉的报告量也是巨大的,怎么能够快速了解投诉的要点是什么,不可能人工的一条条看,可以利用文本的自动分类模型,把投诉分成哪几大类,某一类这样的文本有多少,可以通过文本分类的技术对投诉文本进行处理,可以对投诉的了解可以更方便,可以怎么去解决这个重点和要点.