文本挖掘概述 上|学习笔记

简介: 快速学习文本挖掘概述 上

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本挖掘概述 上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15487


文本挖掘概述 上

 

内容介绍

一、文本挖掘概述

二、文本挖掘与数据挖掘比较

三、文本挖掘的研究意义

 

一、文本挖掘概述

现在开始学习文本挖掘概述,本讲主要有四个内容:文本挖掘概述,文本特征提取,文本表示技术,来了解文本相似度计算。

下面来学习第一节,先来看看文本挖掘的概念,首先文本挖掘的名字有很多,例如Text Mining,Text Data Mining,还有Knowledge Discovery in Text,还有文本中的其他键:Knowledge Discovery in Textual Data(bases),文本中的文本数据库中的数据挖掘,英文的含义就是这样的:Text mining mainly is about somehow extracting the information and knowledge from text就是如何从文本中抽取信息和知识概括,从文本当中抽取信息和知识的过程,用中文表达的话就是从大量的数据中抽取隐含的,未知的,可能有用的信息。

这就是文本挖掘的简单定义,那么再稍微展开一下,文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,这些有价值的知识前面有讲究自己是有效的、新颖的、散布在文本文件中的这样有价值的知识,这样子的话没有一个单独的技术,一般是很难去发现的,就需要一些特别的技术,像文本挖掘的技术,再利用这些知识更好的组织信息的过程,就是利用这些知识来组织信息,来体现信息,来为管理者服务,这是文本挖掘的定义。

文本挖掘刚才说是这样定义的:就是要抽取在文本文件当中的,就是有效、有用、可理解、散开的,找到这个知识可以帮助重新组织信息,组织信息好了之后就可以进行分析利用。

文本挖掘利用一些智能算法,比如学过的贝叶斯、支持向量机、神经网络这些技术,结合自然语言处理技术,在文本挖掘里面自然语言处理技术其实是一个很重要的技术,就是根据NLP技术然后来分析大量的非结构化文本源,知道文本数据是非结构化的,它不同于传统的数据挖掘,就是结构化的数据,非结构化的数据在一个商务里面是大量存在的,例如文档、电子表格、客户电子邮件,像网页上的各种内容,抽取或标记关键字概念、文字间的关系,按照内容对文档进行分类,获取有用的知识和信息。这个是文本挖掘的概念。

 

二、文本挖掘与数据挖掘比较

来看研究对象、对象结构、目标、方法、成熟度这几项,首先是来看数据挖掘Data Mining ,也就是DM,它研究的对象是结构化的数据,它的对象结构是关系数据库,最主要的关系数据库是在RV表格里面,数据挖掘的目标是获取知识、建立应用模型,预测以后的状态,

image.gif模型建好以后的目的是预测以后的状态,数据挖掘的方法是归纳学习、决策树、神经网络、关联规则,它的成熟度是从1994年开始得到广泛应用,是比较早的。

Text Mining就是TM,它的研究结构是无结构的或半结构的文本,它的对象结构是自由开放的文本,它不像数据挖掘一样主要是表格,文本挖掘的目标,是提取含有的文本中的概念和知识,有些文本人的话看得比较明白,但是机器的话就需要文本挖掘技术,从大量的文本当中抽取概念和文本知识,然后文本挖掘的主要应用方法有提取短语、形成概念,还有文本挖掘的分类方法、聚类方法和关联分析方法,文本挖掘的成熟度也比较完整,是从2000年开始得到广泛应用,现在随着大数据时代的到来,文本挖掘显得越来越重要。

 

三、文本挖掘的研究意义

有很多方面的挖掘意义,这里主要说两点,一个是电子化文本数量的不断增长,在网页上面有99%的可分析信息是以文本形式存在的,在机构里面90%的信息也是以文本形式存在的,例如word文档,PPT,PDF还有数据化办公,数据化图书馆,数据化档案馆等等,这个研究意义是客观存在的大量文本数据。

第二个就是传统的检索技术需要提升,大量的文本数据怎么来用它,就要进行检索、查找,要从大量的文本数据里面查找需要的信息,所以检索技术是利用文本信息的主要的方式需要提升,就是传统的检索技术需要提升,那什么原因呢?

主要是传统的检索技术是基于关键词的简单检索,就是我们在电脑上看的,对于关键词,然后查到的也是关键词的信息资源,就是基于关键词的简单匹配,希望得到的信息更加准确,满足我们的目的和要求,就是如何转变为全准的、推送的、综合描述和规律趋势,大家思考的话,查内容的话,搜索的词肯定是按上面的要求,如果它能够满足我们个性化的要求,输入一句话,就给相应的文件,就告诉文件的发展趋势,所以它的检索是需要提升的、推动的文本挖掘的研究。

相关文章
|
存储 弹性计算 NoSQL
libcuckoo论文概述
本文简要阐述libcuckoo项目的两篇论文基础。如有错漏之处,欢迎指出一起讨论交流。 ## 论文1 《MemC3: Compact and Concurrent MemCache with Dumber Caching and Smarter Hashing》 这篇论文主要讲了在多线程模式下如何提升cuckoo hash table的吞吐。 ### 问题 传统hash表在并发效率上并不
1865 0
libcuckoo论文概述
|
3月前
|
机器学习/深度学习 分布式计算 安全
联邦学习的简要概述
联邦学习(Federated Learning, FL)是一种分布式机器学习方法,旨在保护数据隐私的同时,利用多方数据进行模型训练。
181 5
|
4月前
|
机器学习/深度学习 数据挖掘 PyTorch
🎓PyTorch深度学习入门课:编程小白也能玩转的高级数据分析术
踏入深度学习领域,即使是编程新手也能借助PyTorch这一强大工具,轻松解锁高级数据分析。PyTorch以简洁的API、动态计算图及灵活性著称,成为众多学者与工程师的首选。本文将带你从零开始,通过环境搭建、构建基础神经网络到进阶数据分析应用,逐步掌握PyTorch的核心技能。从安装配置到编写简单张量运算,再到实现神经网络模型,最后应用于图像分类等复杂任务,每个环节都配有示例代码,助你快速上手。实践出真知,不断尝试和调试将使你更深入地理解这些概念,开启深度学习之旅。
52 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
133 1
|
6月前
|
机器学习/深度学习 人工智能 算法
计算机算法基础概述与常用算法解析
计算机算法基础概述与常用算法解析
|
7月前
|
算法
计算机算法设计与分析 第1章 算法概述 (笔记)
计算机算法设计与分析 第1章 算法概述 (笔记)
|
8月前
|
数据采集 Go Python
文本挖掘基础入门指南
本文介绍了文本挖掘中的数据预处理步骤,包括去除特殊字符和标点符号、移除停用词、小写化以及词干化或词形还原。使用Python的nltk库,通过示例代码展示了如何实现这些步骤,并强调了nltk库在文本处理中的便利性。文章最后提到,预处理后的文本更适合后续的文本分析任务.
154 6
|
自然语言处理 监控 搜索推荐
文本挖掘概述 下|学习笔记
快速学习文本挖掘概述 下
|
机器学习/深度学习 数据采集 人工智能
数据挖掘概述-4|学习笔记
快速学习数据挖掘概述-4
数据挖掘概述-4|学习笔记
|
机器学习/深度学习 运维 算法
数据挖掘概述 -2|学习笔记
快速学习数据挖掘概述 -2
数据挖掘概述 -2|学习笔记