自然语言处理hanlp------4词典

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 自然语言处理hanlp------4词典

前言

我们学习只考虑hanlp词典(其他词典:互联网词库和清华大学开放中文词库等)

一、词库的格式了解

image.png


第一列是词典的单词本身,第二列和第三列是词性与词频,当然一个词可能有很多词性,之后就会有第四列和第五列的词性和词频


例如下图的

20201222105250622.png


二、词典的加载


1.引入数据

去GitHub下载对应使用的版本的资源包

2020122210543941.png


将其复制后放置在idea如下结构位置:

image.png


至于model,下载的文件里面目前只有一个说明文档,先不管,之后如有需要了,我们再去下载模型包


2.开始使用

创建demo,类名随便起,根据你自己的喜好

代码如下(示例):

public class NaiveDictionaryBasedSegmentation
{
    public static void main(String[] args) throws IOException {
        // 加载词典
        TreeMap<String, CoreDictionary.Attribute> dictionary =
                IOUtil.loadDictionary("此处填写你自己的文件的路径,下面附上我的截图");
        System.out.printf("词典大小:%d个词条\n", dictionary.size());
        System.out.println(dictionary.keySet().iterator().next());
    }
}

image.png

路径可以直接右键点击txt文件后copy path即可


执行代码

得到结果:

image.png

第一行显示的词条总数

第二行显示的是词典中第一个单词是什么在这里插入代码片


词典大小:85584个词条
±
Process finished with exit code 0


最后

Python版同理

此处附上代码及演示截图:

# -*- coding:utf-8 -*-
from pyhanlp import *
def load_dictionary():
    """
    加载HanLP中的mini词库
    :return: 一个set形式的词库
    """
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())
if __name__ == '__main__':
    dic = load_dictionary()
    print(len(dic))
    print(list(dic)[0])


稍作解释:

JClass来根据java包名获取Python类

HanLP.Config.CoreDictionaryPath根据之前的配置文件来获取词典位置

为了方便加载更快,换用mini.txt,故使用replace来替换路径中的后缀


但是,此处我有点迷,最终结果的第二行输出并不是词典第一个单词,我对代码进行了稍微修改,输出了文件的路径,并打开文件对照,仍然不对,此处问题等待我之后明白之后再回改此博客,暂时不做处理。

20201222111858326.png


相关文章
|
9月前
|
自然语言处理 搜索推荐 Python
NLP4:结巴分词
NLP4:结巴分词
63 0
|
自然语言处理 Python
【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注(附代码)
NLP自然语言处理之NLTK工具的使用,进行英文情感分析、分词、分句、词性标注(附代码)
681 0
|
自然语言处理 Java Python
自然语言处理hanlp------10HanLP的词典分词实现
自然语言处理hanlp------10HanLP的词典分词实现
自然语言处理hanlp------10HanLP的词典分词实现
|
自然语言处理 Python
自然语言处理hanlp------1安装
自然语言处理hanlp------1安装
自然语言处理hanlp------1安装
|
存储 自然语言处理 算法
自然语言处理hanlp------8AC自动机
自然语言处理hanlp------8AC自动机
自然语言处理hanlp------8AC自动机
|
自然语言处理 算法 Java
自然语言处理hanlp------6-2字典树的实现
自然语言处理hanlp------6-2字典树的实现
自然语言处理hanlp------6-2字典树的实现
|
自然语言处理 算法 Java
自然语言处理hanlp------6-1字典树的实现
自然语言处理hanlp------6-1字典树的实现
自然语言处理hanlp------6-1字典树的实现
|
自然语言处理 算法 Java
自然语言处理hanlp------5切分算法
自然语言处理hanlp------5切分算法
自然语言处理hanlp------5切分算法
|
自然语言处理 Python
自然语言处理hanlp------2初体验
自然语言处理hanlp------2初体验
自然语言处理hanlp------2初体验
|
机器学习/深度学习 自然语言处理 算法
预测分词---Python自然语言处理(8)
预测分词---Python自然语言处理(8)
235 1
预测分词---Python自然语言处理(8)