Python:使用pyhanlp 进行分词

简介: Python:使用pyhanlp 进行分词

pyhanlp调用java实现的HanLP接口进行分词

安装

pip install pyhanlp

pyhanlp: https://github.com/hankcs/pyhanlp

HanLP: https://github.com/hankcs/HanLP

代码示例

# -*- coding: utf-8 -*-


from pyhanlp import HanLP

document = "你好,欢迎在Python中调用HanLP的API"

# 分词
print(HanLP.segment(document))
"""
[你好/vl, ,/w, 欢迎/v, 在/p, Python/nx, 中/f, 调用/v, HanLP/nx, 的/ude1, API/nx]
"""

# 关键词提取
print(HanLP.extractKeyword(document, 2))
# [中, 调用]

# 自动摘要
print(HanLP.extractSummary(document, 3))
# [欢迎在Python中调用HanLP的API]


            </div>
目录
相关文章
|
存储 Java 程序员
Java基础的灵魂——Object类方法详解(社招面试不踩坑)
本文介绍了Java中`Object`类的几个重要方法,包括`toString`、`equals`、`hashCode`、`finalize`、`clone`、`getClass`、`notify`和`wait`。这些方法是面试中的常考点,掌握它们有助于理解Java对象的行为和实现多线程编程。作者通过具体示例和应用场景,详细解析了每个方法的作用和重写技巧,帮助读者更好地应对面试和技术开发。
478 4
|
Arthas 测试技术
Arthas之Watch静态对象的值
如果在线上排查问题的时候,想获取某个类中的ThreadLocal静态对象的值、静态字段的值,如何获取呢?
1440 0
Arthas之Watch静态对象的值
|
存储 分布式计算 算法
面试题:海量数据去重、Top-k、BitMap问题整理
首先直接进入正题,40亿QQ号如何设计算法去重,相同的QQ号码仅保留一个,内存限制为1个G。 (腾讯的QQ号都是4字节正整数,所以QQ号码的个数是43亿左右,理论值2^32-1个,又因为是无符号的,翻倍了一下,所以43亿左右)
面试题:海量数据去重、Top-k、BitMap问题整理
|
存储 安全 小程序
30道最常问的Java基础面试题
30道最常问的Java基础面试题
4237 0
30道最常问的Java基础面试题
|
算法 Ubuntu 定位技术
Craft:C 语言写的开源 Minecraft 克隆
Craft 是一个 C 语言编写的简单化 Minicraft 克隆,使用了现代 OpenGL(着色器)进行开发。
604 0
Craft:C 语言写的开源 Minecraft 克隆
|
自然语言处理 算法 Java
pyhanlp 中文词性标注与分词简介
如果想要只获取词性也是可以的,因为原分词器返回的是Java中的ArrayList属性,list中的每个单元都是一个term类,因此我们也可以通过获取term中的word字段来直接获取词语,或者nature属性,直接获取词性。这一特征,我们在之后也会用到。
4635 0
|
JSON 数据格式 Python
【Python】python对象与json相互转换
在网络通信中,json是一种常用的数据格式,对于python来讲,将类转化为json数据以及将json数据转化为对象是一件非常容易的事情。 下面给出两者转化的方法 # -*- coding: UTF-8 -*- import json #自定义类 class MyClass: #初始化 def __init__(self): self.a=2
4394 0