文本挖掘概述 上|学习笔记

简介: 快速学习文本挖掘概述 上

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本挖掘概述 上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15487


文本挖掘概述 上

 

内容介绍

一、文本挖掘概述

二、文本挖掘与数据挖掘比较

三、文本挖掘的研究意义

 

一、文本挖掘概述

现在开始学习文本挖掘概述,本讲主要有四个内容:文本挖掘概述,文本特征提取,文本表示技术,来了解文本相似度计算。

下面来学习第一节,先来看看文本挖掘的概念,首先文本挖掘的名字有很多,例如Text Mining,Text Data Mining,还有Knowledge Discovery in Text,还有文本中的其他键:Knowledge Discovery in Textual Data(bases),文本中的文本数据库中的数据挖掘,英文的含义就是这样的:Text mining mainly is about somehow extracting the information and knowledge from text就是如何从文本中抽取信息和知识概括,从文本当中抽取信息和知识的过程,用中文表达的话就是从大量的数据中抽取隐含的,未知的,可能有用的信息。

这就是文本挖掘的简单定义,那么再稍微展开一下,文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,这些有价值的知识前面有讲究自己是有效的、新颖的、散布在文本文件中的这样有价值的知识,这样子的话没有一个单独的技术,一般是很难去发现的,就需要一些特别的技术,像文本挖掘的技术,再利用这些知识更好的组织信息的过程,就是利用这些知识来组织信息,来体现信息,来为管理者服务,这是文本挖掘的定义。

文本挖掘刚才说是这样定义的:就是要抽取在文本文件当中的,就是有效、有用、可理解、散开的,找到这个知识可以帮助重新组织信息,组织信息好了之后就可以进行分析利用。

文本挖掘利用一些智能算法,比如学过的贝叶斯、支持向量机、神经网络这些技术,结合自然语言处理技术,在文本挖掘里面自然语言处理技术其实是一个很重要的技术,就是根据NLP技术然后来分析大量的非结构化文本源,知道文本数据是非结构化的,它不同于传统的数据挖掘,就是结构化的数据,非结构化的数据在一个商务里面是大量存在的,例如文档、电子表格、客户电子邮件,像网页上的各种内容,抽取或标记关键字概念、文字间的关系,按照内容对文档进行分类,获取有用的知识和信息。这个是文本挖掘的概念。

 

二、文本挖掘与数据挖掘比较

来看研究对象、对象结构、目标、方法、成熟度这几项,首先是来看数据挖掘Data Mining ,也就是DM,它研究的对象是结构化的数据,它的对象结构是关系数据库,最主要的关系数据库是在RV表格里面,数据挖掘的目标是获取知识、建立应用模型,预测以后的状态,

image.gif模型建好以后的目的是预测以后的状态,数据挖掘的方法是归纳学习、决策树、神经网络、关联规则,它的成熟度是从1994年开始得到广泛应用,是比较早的。

Text Mining就是TM,它的研究结构是无结构的或半结构的文本,它的对象结构是自由开放的文本,它不像数据挖掘一样主要是表格,文本挖掘的目标,是提取含有的文本中的概念和知识,有些文本人的话看得比较明白,但是机器的话就需要文本挖掘技术,从大量的文本当中抽取概念和文本知识,然后文本挖掘的主要应用方法有提取短语、形成概念,还有文本挖掘的分类方法、聚类方法和关联分析方法,文本挖掘的成熟度也比较完整,是从2000年开始得到广泛应用,现在随着大数据时代的到来,文本挖掘显得越来越重要。

 

三、文本挖掘的研究意义

有很多方面的挖掘意义,这里主要说两点,一个是电子化文本数量的不断增长,在网页上面有99%的可分析信息是以文本形式存在的,在机构里面90%的信息也是以文本形式存在的,例如word文档,PPT,PDF还有数据化办公,数据化图书馆,数据化档案馆等等,这个研究意义是客观存在的大量文本数据。

第二个就是传统的检索技术需要提升,大量的文本数据怎么来用它,就要进行检索、查找,要从大量的文本数据里面查找需要的信息,所以检索技术是利用文本信息的主要的方式需要提升,就是传统的检索技术需要提升,那什么原因呢?

主要是传统的检索技术是基于关键词的简单检索,就是我们在电脑上看的,对于关键词,然后查到的也是关键词的信息资源,就是基于关键词的简单匹配,希望得到的信息更加准确,满足我们的目的和要求,就是如何转变为全准的、推送的、综合描述和规律趋势,大家思考的话,查内容的话,搜索的词肯定是按上面的要求,如果它能够满足我们个性化的要求,输入一句话,就给相应的文件,就告诉文件的发展趋势,所以它的检索是需要提升的、推动的文本挖掘的研究。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
对话系统简介
对话系统简介
|
1天前
|
数据采集 Go Python
文本挖掘基础入门指南
本文介绍了文本挖掘中的数据预处理步骤,包括去除特殊字符和标点符号、移除停用词、小写化以及词干化或词形还原。使用Python的nltk库,通过示例代码展示了如何实现这些步骤,并强调了nltk库在文本处理中的便利性。文章最后提到,预处理后的文本更适合后续的文本分析任务.
20 6
|
8月前
|
机器学习/深度学习 人工智能 算法
机器学习概述(三)
机器学习概述(三)
61 2
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习概述(一)
机器学习概述(一)
64 2
|
机器学习/深度学习 自然语言处理 搜索推荐
现代信息检索——基本概念
现代信息检索——基本概念
|
自然语言处理 监控 搜索推荐
文本挖掘概述 下|学习笔记
快速学习文本挖掘概述 下
241 0
文本挖掘概述 下|学习笔记
|
机器学习/深度学习 数据采集 人工智能
数据挖掘概述-4|学习笔记
快速学习数据挖掘概述-4
127 0
数据挖掘概述-4|学习笔记
|
机器学习/深度学习 SQL 算法
数据挖掘概述-5|学习笔记
快速学习数据挖掘概述-5
128 0
|
机器学习/深度学习 运维 算法
数据挖掘概述 -2|学习笔记
快速学习数据挖掘概述 -2
136 0
数据挖掘概述 -2|学习笔记
|
存储 机器学习/深度学习 人工智能
数据挖掘概述 -1|学习笔记
快速学习数据挖掘概述 -1
129 0
数据挖掘概述 -1|学习笔记