开发者社区> 大数据资讯> 正文

pyhanlp 共性分析与短语提取内容详解

简介: HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。
+关注继续查看

 

简介

HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。

共性分析

04f1c5578cb3b059ff055ffc96b8663e48c68ad7 


互信息mi,左熵lr,右熵re,详细解释见下文

信息论中的互信息

4d30240f885e7bd4c6ff662a003689d32b8e083a 

5

一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)。

根据熵的连锁规则,有

 

1| H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)

 

因此,

 

1|H(X) - H(X|Y) = H(Y) - H(Y|X)

 

这个差叫做X和Y的互信息,记作I(X;Y)。

 

4ff30c28351a6df74a6ad81698fd784774fdb37d

 

其中P(x) 为 单词x出现的次数与总单词数的比值(数学含义为单词x出现的概率)。而P(x,y)则为二阶短语x->y 出现的次数与所有二阶短语的次数。

 

比如在刚刚的说明中,假设默认分词方式将“后验概率”分为“后验”,“概率” 两个大短语,则后验->概率 这个二阶短语一共出现了两次,假设所有二阶短语合共有一百个,则p(后验->概率) = 2 /100 = 1/ 50。

 

要注意的是hanlp作者个的文章《基于互信息和左右信息熵的短语提取识别》中。公式与表标准定义的互信息并不一致,少乘了一个p(x,y),查看源码发现作者确实是按照没有p(x,y)的公式进行计算的。不过使用简化公式计算似乎也是没有问题的。此处还可以参考大鱼的一篇文章

 

信息熵

 

利用信息熵提取

熵这个术语表示随机变量不确定性的量度。具体表述如下: 一般地, 设X 是取有限个值的随机变量( 或者说X 是有限个离散事件的概率场) , X 取值x 的概率为P ( x ) , 则X 的熵定义为:

be55e98a4f2552be9bc76a29bfb104445d3a53f0 


左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下:

 

5d27d668cf12ffadac5519dfc7a284dcacb9877f

 

具体计算方法是,以左熵为例,对一个串左边所有可能的词以及词频,计算信息熵,然后求和。

比如算法->工程师这个二阶短语,其左边可能有很多接续,比如“从事算法工程师”和“成为算法工程师”,当其接续多了,左熵也就会更高。这个二阶短语是一个二阶短语的可能性就更大一些。

但是这里存在一个问题,贾母默认分词与停用词效果不好,可能会将“abcd”分成“a,b,c,d”然后去掉“c”这种停用词,这样“a,b,d”则可能被作为一个三阶短语发现。在HanLP中因为只能发现二阶短语,所以可能因为去掉“a,b”中的一个导致无法发现二阶短语这种情况出现,但是这只存在着理论上的可能。

 

共性分析

 

共性 是指 文本中词语共同出现的情况。在hanlp中如果直接调用共性分析模块不仅可以获取词频统计,还可以一同给出互信息mi,左熵lr,右熵re。以下是pyhanlp中的使用。

 

c3bdd1ee0df71466632fd14fc0e8e89b5ab42d14

41fdc488523797dfbc9c0d034b09a9aa71e2d04d 

105fbe1cf280a873aa90d40dc56965a4ddf475f8 


短语提取

 

说明

 

内部采用MutualInformationEntropyPhraseExtractor实现,用户可以直接调用MutualInformationEntropyPhraseExtractor.extractPhrase(text, size)

算法详解

《基于互信息和左右信息熵的短语提取识别》

该功能的实现依赖于共性分析,详细内容可以查看《基于互信息和左右信息熵的短语提取识别

 

pyhan中的短语提取

 

# 短语提取

text = """算法工程师\n

        算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n

        1职位简介\n

        算法工程师是一个非常高端的职位;\n

        专业要求:计算机、电子、通信、数学等相关专业;\n

        学历要求:本科及其以上的学历,大多数是硕士学历及其以上;\n

        语言要求:英语要求是熟练,基本上能阅读国外专业书刊;\n

        必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。\n

        2研究方向\n

        视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n

        \n

        3目前国内外状况\n

        目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n

        在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n

        在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" +

        另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n

        算法工程师逐渐往人工智能方向发展。"""

                

                

phraseList = HanLP.extractPhrase(text, 10)

print(phraseList);

 

1|[算法工程师, 算法处理, 一维信息, 算法研究, 图像技术, 信号处理, 信息算法, 处理算法, 视频算法, 通信物理]

 

作者:Font Tian  

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
性能测试:自建数据库与RDS性能对比SQL Server案例排查分析
在性能测试:自建数据库对比RDS中应当注意的地方中,深刻剖析了自建数据库和RDS之间性能对比需要注意的诸多因素,例如可用区,网络,实例规格,高可用性架构以及实例参数设置等等,这里就不一一概述了。 本文主要讲述,遇到此类问题该如何进行排查和分析。
3249 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
23524 0
案例篇-HBase 基本知识介绍及典型案例分析
吴阳平 阿里巴巴 HBase 业务架构师
20988 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
22225 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
14207 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
21936 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
18585 0
+关注
大数据资讯
hadoop爱好者
149
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载