文本特征提取-上|学习笔记

简介: 快速学习文本特征提取-上

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本特征提取-上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15489


文本特征提取-上

 

内容简介:

一、文本特征提取

二、分词技术

 

一、文本特征提取

下面我们来学习第二节,文本特征提取,我们一般把文本的特征提取和文本的表示放在一起讲。

文本的表示就是把从文本中抽取出的特征词进行量化来表示文本信息,这里一个很革命性的定义就是特征词要进行量化,量化也就是数字化,只有数字化才能够发挥计算机强大的计算能力,实际上计算机对文本的处理能力并不强大。

有关文本表示的相关内容我们会在下一节进行讲解,这一节还是讲解文本的特征提取。我们知道文本挖掘尽管处理的是非结构化的文本数据,但是他还是要讲非结构化的文本数据转换成结构化的文本数据,以便于计算机的处理。那么,我们提取特征词,他的作用和意义是什么呢?下面我们来看一个实例。

image.png

上图是红楼梦电子小说的分词。在红楼梦里一直有一个争议,就是前八十回和后四十回是不是同一个作者。我们知道,如果是同一个作者,他的用词方式应该是相似的相同的,所以我们特征提取,可以在这方面做一些工作。大家如果想再一步了解的话,我们可以再举一个例子。金庸的武打小说和古龙的武打小说用词就有一个很大的差异。金庸的话描写很细腻,古龙的描写很简洁。

比如这样一个场景,金庸这样描写,刀光一闪,他捂着自己的脖子,感觉到怎么这么凉,然后睁大了眼睛,慢慢的思考着人生。而古龙的小说这么写,刀光一闪,人头落地。所以说这个用词的特征是差异很大的。那我们要理解文本,文本里的词汇量非常多,那我们要找到特征的,能代表文本的含义的这样的特征词,这样会方便有助于我们理解。

下面我们来进一步了解一下文本特征提取。目前大多数中文文本的挖掘系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。就是我们要找到所要求的相似的文档,可以用这个特征词作为中间形式进行计算,提高效率。特征抽取的主要功能就是再不损伤核心信息的情况下降低向量空间维数,因为原来词很多,现在找到一些具有代表意义的特征词,来降低向量的空间维数,简化计算,提高文本处理的速度和效率。文本特征抽取的方式常见的有4种,一种就是用映射或变换的方法把原始特征变换为较少的新特征,就是用少的特征代表整个文档。

第二个就是从原始特征中挑选出一些具有代表性的特征,这个和第一个有点相似。

第三个就是根据专家的知识挑选出一些最具代表性的特征,大家都知道我们这个学术论文都要提供三到八个关键词,这个关键词就是作者,我们的专家挑选出最能代表这篇文章的关键词。

第四个是基于数学方法进行选取,找出最具分类信息的特征。我们都知道人工智能里面核心的一个技术就是数学,所以大家学统计专业也非常强大。

那么,我们要用数学方法来选取特征,那么我们常见的四种方法里,推荐的还是第四种方法,用数学的方法,然后进行特征选取。那用数学方法进行特征选取,就要掌握到特征提取的评估函数。

那要构造特征函数的话,我们就要对特征集合里的每一个特征进行评估,并对每一个特征进行打分,这样每个词语都获得一个评估值,这个值就称为权重。

决定文本特征提取的效果的主要因素是评估函数的质量,常用的评估函数包括以下几种,比如说第一个,在我们的文件情报专业里面比较多的,TF-IDF,TF是词频,IDF是反向的文档频,然后还有互信息,期望交叉熵等。还有最近几年比较热 的分布式表示词向量技术,那么它具有代表性的,最早的影响最大的是word2vec,还有后面进一步发展的glove,非常热门的bert。如果同学们进一步学习的话,再bert上多花点功夫。

 

二、分词技术

我们重点来讲解一下文本特征提取的分词技术,分词技术特别重要,我们来看一些分词的实例。比如说和平民主,这就有很多的分的可能性“和平”“民主”“和”“平民”“主”实际上这些都是一些词。

下面还有一些例子,分词就有多种可能性,也就是分词就歧义,这是分词里非常大的一个难点。

我们再来看一下分词的基本方法,最大匹配法,最大概率法分词,最短路径分词方法,当然还有一些其他的方法。比如说基于理解的分词方法。分词的难点主要有两点,一种是分词有歧义,它有多种可能性,到底选哪一个,有歧义。

还有一个未登录词识别。实际上分词最后需要一个词典,词典里有的词能分出来,没有的词就是未登陆词,那未登录词如何解决,这又是一个难点。

相关文章
|
2月前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
26天前
|
人工智能 缓存 搜索推荐
阿里云百炼产品月报【2025年10月】
通义千问本月重磅升级:发布9款Qwen3-VL多模态模型,支持视频理解、2D/3D定位;MCP生态新增17项服务;推出电商AI生图模板,助力商家降本增效。
|
2月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
679 19
|
Java API Apache
Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
【10月更文挑战第29天】Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
865 5
|
9月前
|
人工智能 数据可视化 UED
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
397 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
|
SQL 数据挖掘 数据库
从管控角度谈慢SQL治理
慢SQL指的是执行效率低、响应时间长的SQL查询,其定义需综合考虑执行时间、业务场景、资源消耗、频率及影响、用户体验等多个维度。产生慢SQL的原因包括硬件问题、无索引或索引失效、锁等待及不当的SQL语句。慢SQL会增加资源占用,影响其他请求响应时间,可能导致系统故障,引发数据不一致问题,并影响用户体验。优化慢SQL需善用工具发现、设置合理告警机制,并进行分级治理与长期追踪。
|
人工智能 前端开发 搜索推荐
前端技术发展趋势分析与展望
【2月更文挑战第9天】 随着移动互联网的快速发展,前端技术在不断演进,从最初的HTML、CSS到如今的React、Vue等前端框架,技术发展日新月异。本文将从移动端、跨平台、人工智能等多个角度分析前端技术的发展趋势,并展望未来的发展方向。
|
算法 Python
群智能算法:灰狼优化算法(GWO)的详细解读
在优化问题中,寻找最优解是核心目标。灰狼优化算法(GWO)受到自然界灰狼狩猎行为和社会等级结构的启发,通过模拟Alpha(头狼)、Beta(助手狼)、Delta(支配狼)和Omega(普通狼)的角色,高效搜索最优解。本文详细解析GWO的原理与步骤,并提供Python代码实现,帮助读者理解并应用这一算法。
|
芯片
【TI速成】半小时入门MSPM0G3507简明教程之按键定时器(二)
半小时入门MSPM0G3507简明教程之按键定时器
1256 0
|
机器学习/深度学习 算法 数据挖掘
【机器学习】Python详细实现基于欧式Euclidean、切比雪夫Chebyshew、曼哈顿Manhattan距离的Kmeans聚类
文章详细实现了基于不同距离度量(欧氏、切比雪夫、曼哈顿)的Kmeans聚类算法,并提供了Python代码,展示了使用曼哈顿距离计算距离矩阵并输出k=3时的聚类结果和轮廓系数评价指标。
328 1