文本挖掘概述 上|学习笔记

简介: 快速学习文本挖掘概述 上

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本挖掘概述 上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15487


文本挖掘概述 上

 

内容介绍

一、文本挖掘概述

二、文本挖掘与数据挖掘比较

三、文本挖掘的研究意义

 

一、文本挖掘概述

现在开始学习文本挖掘概述,本讲主要有四个内容:文本挖掘概述,文本特征提取,文本表示技术,来了解文本相似度计算。

下面来学习第一节,先来看看文本挖掘的概念,首先文本挖掘的名字有很多,例如Text Mining,Text Data Mining,还有Knowledge Discovery in Text,还有文本中的其他键:Knowledge Discovery in Textual Data(bases),文本中的文本数据库中的数据挖掘,英文的含义就是这样的:Text mining mainly is about somehow extracting the information and knowledge from text就是如何从文本中抽取信息和知识概括,从文本当中抽取信息和知识的过程,用中文表达的话就是从大量的数据中抽取隐含的,未知的,可能有用的信息。

这就是文本挖掘的简单定义,那么再稍微展开一下,文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,这些有价值的知识前面有讲究自己是有效的、新颖的、散布在文本文件中的这样有价值的知识,这样子的话没有一个单独的技术,一般是很难去发现的,就需要一些特别的技术,像文本挖掘的技术,再利用这些知识更好的组织信息的过程,就是利用这些知识来组织信息,来体现信息,来为管理者服务,这是文本挖掘的定义。

文本挖掘刚才说是这样定义的:就是要抽取在文本文件当中的,就是有效、有用、可理解、散开的,找到这个知识可以帮助重新组织信息,组织信息好了之后就可以进行分析利用。

文本挖掘利用一些智能算法,比如学过的贝叶斯、支持向量机、神经网络这些技术,结合自然语言处理技术,在文本挖掘里面自然语言处理技术其实是一个很重要的技术,就是根据NLP技术然后来分析大量的非结构化文本源,知道文本数据是非结构化的,它不同于传统的数据挖掘,就是结构化的数据,非结构化的数据在一个商务里面是大量存在的,例如文档、电子表格、客户电子邮件,像网页上的各种内容,抽取或标记关键字概念、文字间的关系,按照内容对文档进行分类,获取有用的知识和信息。这个是文本挖掘的概念。

 

二、文本挖掘与数据挖掘比较

来看研究对象、对象结构、目标、方法、成熟度这几项,首先是来看数据挖掘Data Mining ,也就是DM,它研究的对象是结构化的数据,它的对象结构是关系数据库,最主要的关系数据库是在RV表格里面,数据挖掘的目标是获取知识、建立应用模型,预测以后的状态,

image.gif模型建好以后的目的是预测以后的状态,数据挖掘的方法是归纳学习、决策树、神经网络、关联规则,它的成熟度是从1994年开始得到广泛应用,是比较早的。

Text Mining就是TM,它的研究结构是无结构的或半结构的文本,它的对象结构是自由开放的文本,它不像数据挖掘一样主要是表格,文本挖掘的目标,是提取含有的文本中的概念和知识,有些文本人的话看得比较明白,但是机器的话就需要文本挖掘技术,从大量的文本当中抽取概念和文本知识,然后文本挖掘的主要应用方法有提取短语、形成概念,还有文本挖掘的分类方法、聚类方法和关联分析方法,文本挖掘的成熟度也比较完整,是从2000年开始得到广泛应用,现在随着大数据时代的到来,文本挖掘显得越来越重要。

 

三、文本挖掘的研究意义

有很多方面的挖掘意义,这里主要说两点,一个是电子化文本数量的不断增长,在网页上面有99%的可分析信息是以文本形式存在的,在机构里面90%的信息也是以文本形式存在的,例如word文档,PPT,PDF还有数据化办公,数据化图书馆,数据化档案馆等等,这个研究意义是客观存在的大量文本数据。

第二个就是传统的检索技术需要提升,大量的文本数据怎么来用它,就要进行检索、查找,要从大量的文本数据里面查找需要的信息,所以检索技术是利用文本信息的主要的方式需要提升,就是传统的检索技术需要提升,那什么原因呢?

主要是传统的检索技术是基于关键词的简单检索,就是我们在电脑上看的,对于关键词,然后查到的也是关键词的信息资源,就是基于关键词的简单匹配,希望得到的信息更加准确,满足我们的目的和要求,就是如何转变为全准的、推送的、综合描述和规律趋势,大家思考的话,查内容的话,搜索的词肯定是按上面的要求,如果它能够满足我们个性化的要求,输入一句话,就给相应的文件,就告诉文件的发展趋势,所以它的检索是需要提升的、推动的文本挖掘的研究。

相关文章
|
机器学习/深度学习 网络架构 人工智能
AI - MoE(Mixture-of-Experts)结构
AI - MoE(Mixture-of-Experts)结构
564 1
|
存储 Kubernetes 安全
Kubernetes必备知识: PersistentVolumeClaim
PersistentVolumeClaim(简称PVC)是用户存储的请求,PVC消耗PV的资源,可以请求特定的大小和访问模式,需要指定归属于某个Namespace,在同一个Namespace的Pod才可以指定对应的PVC。 当需要不同性质的PV来满足存储需求时,可以使用StorageClass来实现。 每个 PVC 中都包含一个 spec 规格字段和一个 status 声明状态字段。
3940 0
Kubernetes必备知识: PersistentVolumeClaim
|
负载均衡 监控 前端开发
Spring Cloud 2021.0.1 实践 OpenFeign | Debug 笔记
Spring Cloud 2021.0.1 实践 OpenFeign | Debug 笔记
952 0
Spring Cloud 2021.0.1 实践 OpenFeign | Debug 笔记
|
Java
颠覆认知:一向主张可扩展性的Java,为何要推出封闭类?
本文介绍了Java的Sealed Classes(封闭类)功能,探讨了为何Java在强调可扩展性的同时引入这一特性。文章基于JDK 17.0.5,详细解释了Sealed Classes的概念及其作用。通过对比final类和package-private类,阐述了封闭类在提高安全性和控制扩展性方面的优势。最后,通过具体示例展示了如何使用sealed关键字以及相关语法。了解这一新特性有助于我们更好地把握Java未来的发展趋势。
200 2
|
8月前
|
运维 Oracle 关系型数据库
YashanDB演讲实录|王南:YAC集群,核心平替
本文分享了“2024国产数据库创新生态大会”上,深算院首席产品官兼崖山科技副总裁王南的演讲实录,主题为《YAC集群,核心平替》。文章深入探讨了数据库行业面临的规模化应用挑战,提出崖山数据库在核心技术、团队实力和商业化能力上的优势。崖山通过YashanDB V23版本,正式发布共享集群LTS版本、Oracle 99%兼容、MySQL生态支持、私有云管平台及数据库一体机等创新成果,提供高性价比的平替方案。同时,崖山全面开放V23版本下载,携手200多家生态伙伴加速商业落地,助力国产数据库迈向大规模应用新时代。
|
前端开发 JavaScript Java
基于Vue+ElementUI框架实现学生管理系统前端页面设计
基于Vue+ElementUI框架实现学生管理系统前端页面设计
436 1
|
11月前
|
前端开发 JavaScript C++
Marp 教程:实现幻灯片动画效果
Marp 是一个基于 Markdown 的幻灯片制作工具,结合 VSCode 的强大编辑功能,可以让你的 PPT 制作更加高效和专业。本教程详细介绍了如何在 Marp 中使用 CSS 和 JavaScript 实现幻灯片的动画效果,包括淡入、滑动、旋转等基本动画,以及交互式动画和图表动画等高级效果。通过这些技巧,你可以制作出更加生动、吸引眼球的演示文稿。
|
存储 JavaScript 前端开发
基于SpringBoot+vue的校园招聘系统
基于SpringBoot+vue的校园招聘系统
基于SpringBoot+vue的校园招聘系统
|
11月前
|
前端开发 JavaScript
svg圆形进度条插件svg-gauge
svg-gauge是一款基于SVG的圆形进度条插件。该插件无任何依赖,可以轻松的制作出各种圆形进度条,以及圆形进度条的动画特效。
|
开发工具 git
Vcpkg安装指定版本包或自定义安装包
Vcpkg安装指定版本包或自定义安装包
2459 0