文本挖掘概述 下|学习笔记

简介: 快速学习文本挖掘概述 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本挖掘概述 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15488


文本挖掘概述 下

 

内容介绍

一、文本挖掘的主要应用

二、智能信息的主要意义

三、文本挖掘技术的难点

四、通用的文本挖掘模型

五、文本挖掘的重要性

 

一、文本挖掘的主要应用

来看看文本挖掘的主要应用,前面讲过检索技术的提升需要深入的确定,

image.gif可以看到一些新时代的引擎这样的一些汇聚阶段,这一个互联网的内容安全,比如说互联网上的舆情言论,还有非法内容的发布,就是一些信息的监控和过滤,进行的一些知识的发现等等,互联网安全,这个在我们国家特别重要,需要文本挖掘,利用文本挖掘的技术,就是企业的知识管理,知道管理信息系统以及积压系统,都有这个知识管理,把一些企业人员的经验和知识,管理人员的经验和知识,一般都是在文档里面和方案里面放的,怎么把它集中在一起,再利用一些技术进行管理,再进行运用,合格就是企业的管理知识,首先是大家应该比较能理解的就是Call center notes categorization就是呼叫中心的,还有一些企业的管理系统CRM systems,不仅有结构化的因素,里面含有大量的文本信息。

就是个人智能信息访问,因为个人信息需求越来越大,个人可能需要一些智能信息模式,然后汇总,收集个人信息之后就可以方便管理,同样也提供个人地址,他也提供个人的信息模式,让别人去了解他,可以跟他合作。

 

二、智能信息的主要意义

现在讲的是智能信息的主要意义。现在来看一下为什么要做新一代的搜索引擎,来看看下图的数据:

在百度里面搜“王小丫老公”,它会告诉你,根据法律规定,内容不可以显示,但是搜“王小丫丈夫”的话,那么它会告诉你王小丫丈夫是谁,也就是说找出一个这样的搜索引擎,百度认为这个老公和丈夫是一个概念,很显然需要在语义方面的理解的搜索引擎。再看一个例子,先看下图:

image.gif在百度里面搜索“姚明的女儿的妈妈的身高”,也就是说要满足这样的一个语义表达的要求,从字面看人可能理解,就是找到姚明老婆的身高,但是按照传统的关键词检索,可能就分解成“姚明”、“女儿”、“妈妈”、“身高”,有可能找到的是“姚明的女儿的身高”,或者“姚明妈妈的身高”,而希望能达到语义理解,就是“姚明的老婆的身高”,现在百度已经可以做这样的一个检索了,叫做搜“立方”,在谷歌里面叫做搜索引擎,在百度就叫做“搜立方”,就是可以做一个语义的关系,就是一个对于时间有关系,大家可以看到一个叫做“叶莉”的身高也就是姚明老婆的身高。

 

三、文本挖掘技术的难点

文本挖掘技术其实是比较困难的,它的难点是这样的方面,一个是语言难点,知道文本不是给计算机用的,主要是给人类看的,就会有复杂的语言结构,包括语法语义,更困难的是歧义,就是各种歧义,这种歧义就是问出来,到底是哪一个意思,计算机的理解可能就相交的,再一个就是多语言,各种语言,比如说各种语种,比如说中日英多语言,这是语言难点。再一个难点就是算法难点,因为在传统数据挖掘采用的是结构化的数据,结构化数据的信息是有限的,文本挖掘它的算法难点就是有大规模的数据集,就是更庞大,研究所里面有90%都是文本信息。

image.gif然后第二个是高维,结构化的数据数据挖掘面对的结构化数据它的维度往往是有限的,几百维、几千维都是可以得到的,在文本挖掘里面这个维度可能就是一个词,如果研究一万、十万篇文献的话,这个词的话可能就是几十万、几百万的,就是高维的,然后就是过于适应,就是研究一些方面的文本,比如说研究还款方面的文本,他们的差别很大,很难匹配,就容易过于适应,还有一个就是文本里的数据和知识就发生一些变化,每年都有一些新的词汇,有些词的语义是在变迁的,比如说早期的同志的含义跟现在同志的含义是不一样的,里面还有一些干扰的数据就是噪音数据,大家在一些社交网络在一些论坛里面,里面会含有一些大量的噪音数据。下一个难点就是挖掘出的模式的可理解性,像传统的数据挖掘,挖掘出来的内容的模型比较容易解析,也比较容易理解,文本挖掘就是文本里面的那些词之间的关系,和谁跟它搭配,词和词之间的固定的结构,理解上面也是比较困难。

 

四、通用的文本挖掘模型

下面来看一下通用的文本挖掘模型,它由这几方面构成的,首先是要有文本源,就是文本数据在哪里,在写这个类似local的实验里给大家一些功课的文本数据语言,如果处于之间的项目的话,再去寻找它是什么类型的文本源,也就是说要做房地产领域短租市场的临时监控,就要了解短租市场一般租客在哪里发表他的意见,如果要做一些明星关注的一些话题的话,就要看这些话题在哪些网站上面。

再下一步就是要做文本分析,文本源有了之后就做一个文本分析,文本分析的话也是要将非结构化的文本转变成有结构的,就是讲文本解释的是一个非结构化的数据,但是它最终还是要转变成结构化的数据,这个结构化里面有单位词,所以要对文本进行分词,这对中文来说特别重要,然后也要处理一些特别的词,比如数字、日期以及一些专业名词,还要做词性标注,进一步可以做文本的结构分析,就是文本里面的主谓宾、文本里面的依存关系、语法分析等等。再下一步就是文本的特征提取,因为文本里面含有大量的词汇,如果全部用的话效率太差,那能不能找到那些关键词,再找那些词汇呢,也就是特征提取,就需要一些特征词及权重的表达方法,也可以做关键词摘要还有特定信息抽取,特征信息抽取,特征名词也就是人名、机构名、地理位置、专业名词等等,前面这些基础准备好了以后就可以做文本挖掘的各种应用了,这个框子里面主要是各种应用,比如文本挖掘的文本检索、文本的分类、文本的聚类、文本的过滤、作为页面画质的检测和跟踪(TDT),再整合在一个系统里面供用户使用,这就是一个一般的文本挖掘模型,如下图:

image.gif


五、文本挖掘的重要性

再来看看文本挖掘的重要性,现在正处于非结构化数据的海洋,如果说结构化数据是陆地的话,非结构化就是海洋,世界上更大面积的是海洋,非结构化数据主要有年报、投诉文本、微博、舆情、客户咨询、客户评论等等,大量的文本数据构成了一个海洋,知道文本数据它的处理,前面讲了文本挖掘的模型,这里来看看对于非结构化的数据他处理的步骤,先是要有文本源,文本源确定之后就要做数据准备,要用网络查重去发掘、去预处理一些重复的数据,文本数据进一步进行分词处理,进行文本数据的结构化,再建一个模型,比如说传统的一些数据的分类模式来建模,又可以从文本数据进行一个信息提取,再进行各种应用、过程,

如下图:

image.gif这里举一个例子,比如说可以做文本摘要,看评论更轻松。网上会有大量的评论,可能一天的评论某一个公司来监控的话,可能就是几万或者几十万条,比如说海底捞,全国开了那么多的店,上面的评论量是巨大的,人工看的话一个个看就会很久,做一个文本摘要,把这些要点提取出来,这样看的话就比较轻松了。

再来客服的满意度的投诉的问题,投诉的报告量也是巨大的,怎么能够快速了解投诉的要点是什么,不可能人工的一条条看,可以利用文本的自动分类模型,把投诉分成哪几大类,某一类这样的文本有多少,可以通过文本分类的技术对投诉文本进行处理,可以对投诉的了解可以更方便,可以怎么去解决这个重点和要点.

相关文章
|
存储 弹性计算 NoSQL
libcuckoo论文概述
本文简要阐述libcuckoo项目的两篇论文基础。如有错漏之处,欢迎指出一起讨论交流。 ## 论文1 《MemC3: Compact and Concurrent MemCache with Dumber Caching and Smarter Hashing》 这篇论文主要讲了在多线程模式下如何提升cuckoo hash table的吞吐。 ### 问题 传统hash表在并发效率上并不
1865 0
libcuckoo论文概述
|
3月前
|
机器学习/深度学习 分布式计算 安全
联邦学习的简要概述
联邦学习(Federated Learning, FL)是一种分布式机器学习方法,旨在保护数据隐私的同时,利用多方数据进行模型训练。
181 5
|
4月前
|
机器学习/深度学习 数据挖掘 PyTorch
🎓PyTorch深度学习入门课:编程小白也能玩转的高级数据分析术
踏入深度学习领域,即使是编程新手也能借助PyTorch这一强大工具,轻松解锁高级数据分析。PyTorch以简洁的API、动态计算图及灵活性著称,成为众多学者与工程师的首选。本文将带你从零开始,通过环境搭建、构建基础神经网络到进阶数据分析应用,逐步掌握PyTorch的核心技能。从安装配置到编写简单张量运算,再到实现神经网络模型,最后应用于图像分类等复杂任务,每个环节都配有示例代码,助你快速上手。实践出真知,不断尝试和调试将使你更深入地理解这些概念,开启深度学习之旅。
52 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】AudioLM音频生成模型概述及应用场景,项目实践及案例分析
AudioLM(Audio Language Model)是一种基于深度学习的音频生成模型,它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列(Seq2Seq)框架上,通过学习大量音频数据中的统计规律,能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音,还能生成自然界的声音、环境噪声等,其应用广泛,涵盖了娱乐、教育、辅助技术、内容创作等多个领域。
133 1
|
6月前
|
机器学习/深度学习 人工智能 算法
计算机算法基础概述与常用算法解析
计算机算法基础概述与常用算法解析
|
7月前
|
算法
计算机算法设计与分析 第1章 算法概述 (笔记)
计算机算法设计与分析 第1章 算法概述 (笔记)
|
8月前
|
数据采集 Go Python
文本挖掘基础入门指南
本文介绍了文本挖掘中的数据预处理步骤,包括去除特殊字符和标点符号、移除停用词、小写化以及词干化或词形还原。使用Python的nltk库,通过示例代码展示了如何实现这些步骤,并强调了nltk库在文本处理中的便利性。文章最后提到,预处理后的文本更适合后续的文本分析任务.
154 6
|
机器学习/深度学习 自然语言处理 搜索推荐
文本挖掘概述 上|学习笔记
快速学习文本挖掘概述 上
|
机器学习/深度学习 数据采集 人工智能
数据挖掘概述-4|学习笔记
快速学习数据挖掘概述-4
数据挖掘概述-4|学习笔记
|
机器学习/深度学习 运维 算法
数据挖掘概述 -2|学习笔记
快速学习数据挖掘概述 -2
数据挖掘概述 -2|学习笔记