自然语言处理hanlp------4词典

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 自然语言处理hanlp------4词典

前言

我们学习只考虑hanlp词典(其他词典:互联网词库和清华大学开放中文词库等)

一、词库的格式了解

image.png


第一列是词典的单词本身,第二列和第三列是词性与词频,当然一个词可能有很多词性,之后就会有第四列和第五列的词性和词频


例如下图的

20201222105250622.png


二、词典的加载


1.引入数据

去GitHub下载对应使用的版本的资源包

2020122210543941.png


将其复制后放置在idea如下结构位置:

image.png


至于model,下载的文件里面目前只有一个说明文档,先不管,之后如有需要了,我们再去下载模型包


2.开始使用

创建demo,类名随便起,根据你自己的喜好

代码如下(示例):

public class NaiveDictionaryBasedSegmentation
{
    public static void main(String[] args) throws IOException {
        // 加载词典
        TreeMap<String, CoreDictionary.Attribute> dictionary =
                IOUtil.loadDictionary("此处填写你自己的文件的路径,下面附上我的截图");
        System.out.printf("词典大小:%d个词条\n", dictionary.size());
        System.out.println(dictionary.keySet().iterator().next());
    }
}

image.png

路径可以直接右键点击txt文件后copy path即可


执行代码

得到结果:

image.png

第一行显示的词条总数

第二行显示的是词典中第一个单词是什么在这里插入代码片


词典大小:85584个词条
±
Process finished with exit code 0


最后

Python版同理

此处附上代码及演示截图:

# -*- coding:utf-8 -*-
from pyhanlp import *
def load_dictionary():
    """
    加载HanLP中的mini词库
    :return: 一个set形式的词库
    """
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())
if __name__ == '__main__':
    dic = load_dictionary()
    print(len(dic))
    print(list(dic)[0])


稍作解释:

JClass来根据java包名获取Python类

HanLP.Config.CoreDictionaryPath根据之前的配置文件来获取词典位置

为了方便加载更快,换用mini.txt,故使用replace来替换路径中的后缀


但是,此处我有点迷,最终结果的第二行输出并不是词典第一个单词,我对代码进行了稍微修改,输出了文件的路径,并打开文件对照,仍然不对,此处问题等待我之后明白之后再回改此博客,暂时不做处理。

20201222111858326.png


相关文章
|
自然语言处理 Java Python
自然语言处理hanlp------10HanLP的词典分词实现
自然语言处理hanlp------10HanLP的词典分词实现
自然语言处理hanlp------10HanLP的词典分词实现
|
自然语言处理 Python
自然语言处理hanlp------1安装
自然语言处理hanlp------1安装
自然语言处理hanlp------1安装
|
存储 自然语言处理 算法
自然语言处理hanlp------8AC自动机
自然语言处理hanlp------8AC自动机
自然语言处理hanlp------8AC自动机
|
自然语言处理 算法 Java
自然语言处理hanlp------6-2字典树的实现
自然语言处理hanlp------6-2字典树的实现
自然语言处理hanlp------6-2字典树的实现
|
自然语言处理 算法 Java
自然语言处理hanlp------6-1字典树的实现
自然语言处理hanlp------6-1字典树的实现
自然语言处理hanlp------6-1字典树的实现
|
自然语言处理 算法 Java
自然语言处理hanlp------5切分算法
自然语言处理hanlp------5切分算法
自然语言处理hanlp------5切分算法
|
自然语言处理 Python
自然语言处理hanlp------2初体验
自然语言处理hanlp------2初体验
自然语言处理hanlp------2初体验
|
自然语言处理 物联网
自然语言处理--------jieba分词(文章中含有源码)
自然语言处理--------jieba分词(文章中含有源码)
138 0
自然语言处理--------jieba分词(文章中含有源码)
|
自然语言处理
自然语言处理---------jieba调整词频与词性标注
自然语言处理---------jieba调整词频与词性标注
161 0
自然语言处理---------jieba调整词频与词性标注
|
自然语言处理 算法
自然语言处理工具HanLP-N最短路径分词
本篇给大家分享baiziyu 写的HanLP 中的N-最短路径分词。以为下分享的原文,部分地方有稍作修改,内容仅供大家学习交流!首先说明在HanLP对外提供的接口中没有使用N-最短路径分词器的,作者在官网中写到这个分词器对于实体识别来说会比最短路径分词稍好,但是它的速度会很慢。
1828 0