pyhanlp用户自定义词典添加

简介:

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

经过测试,HanLP比nltk在中文分词和实体识别方面都更好用。

如何向pyhanlp添加自定义的词典?以python 2.7.9为例:

1.安装pyhanlp:pip install pyhanlp

2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。

具体绝对路径可用hanlp --version获取:

hanlp --version

jar  1.6.3: /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar
data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config    : /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。

cat 我的词典.txt  

codis集群 nz 1000

今日头条 nz 1000

第一列为词条,第二列为词性(默认为n),第三列为词频

4.然后需要删除缓存文件,这样python才会重新加载新增的文件:

rm -f CustomDictionary.txt.bin

5.测试新增的词典:

python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告: 读取/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)

报这个错误没有关系,只是个warning,重新加载缓存文件而已。

文章来源于明月三千里68的博客

相关文章
|
存储 机器学习/深度学习 Kubernetes
kubeflow系列:基于国内阿里云镜像解决kubeflow一键安装
google出品在国内都存在墙的问题,而kubeflow作为云原生的机器学习套件对团队的帮助很大,对于无条件的团队,基于国内镜像搭建kubeflow可以帮助大家解决不少麻烦,这里给大家提供一套基于国内阿里云镜像的kubeflow 0.6的安装方案。
9911 0
kubeflow系列:基于国内阿里云镜像解决kubeflow一键安装
|
小程序 开发者
HBuilderX运行uniapp到微信开发者工具常见报错
HBuilderX运行uniapp到微信开发者工具常见报错
3138 0
|
4月前
|
人工智能 自然语言处理 人机交互
2025中国AI数字人企业厂商新排名与推荐全栈自研技术及数字引擎推荐选择
AI数字人正以逼真形象、智能交互与多场景应用崛起为科技新势力。依托NeRF、AIGC等技术,实现表情动作自然同步,广泛应用于金融、政务、医疗等领域,推动服务智能化升级。像衍科技、阿里云、百度等企业引领创新,重塑人机交互未来。
|
7月前
|
监控 测试技术 调度
《Unity3D VR游戏手柄振动与物理碰撞同步失效问题深度解析》
本文聚焦Unity3D VR游戏开发中,Meta Quest 3设备上手柄振动反馈与物理碰撞同步失效的Bug。该问题出现在Unity 2023.1.10f1、XR Interaction Toolkit 2.5.2环境下,“机械齿轮密室”关卡中,振动常缺失或延迟1-3秒,高频操作时异常率超60%。排查发现,因振动命令生成超设备100ms/次的处理上限,且与XR视角更新共享线程优先级低致队列堆积,物体质量也影响异常率。通过限流命令生成、调优队列调度与物理参数适配,经三层测试验证,异常率大幅降低,延迟控制在300ms内。文章还沉淀出实机测试、多维度同步等开发经验。
218 8
|
11月前
|
存储 SQL 大数据
从 o11y 2.0 说起,大数据 Pipeline 的「多快好省」之道
SLS 是阿里云可观测家族的核心产品之一,提供全托管的可观测数据服务。本文以 o11y 2.0 为引子,整理了可观测数据 Pipeline 的演进和一些思考。
555 34
|
数据采集 前端开发 JavaScript
捕捉页面的关键元素:用CSS选择器与Puppeteer自动抓取
本文介绍了如何使用 Puppeteer 结合 CSS 选择器抓取动态网页中的关键元素,以亚航网站的特价机票信息为例,通过设置代理 IP、User-Agent 和 Cookie 等技术手段,有效提升爬虫策略,实现高效、稳定的爬取。
430 5
捕捉页面的关键元素:用CSS选择器与Puppeteer自动抓取
|
小程序 开发工具 Android开发
微信小程序开发工具的使用,各个配置文件详解,小程序开发快速入门(二)
微信小程序开发工具的使用,各个配置文件详解,小程序开发快速入门(二)
1215 0
|
存储 算法 Linux
3分钟带你快速学会Linux tar 命令
【4月更文挑战第24天】
875 1
3分钟带你快速学会Linux tar 命令
|
XML JSON API
1688商品详情API接口获取商品信息
在电商领域,商品详情页面是用户了解商品详细信息的重要途径。为了方便开发者快速获取商品信息,阿里巴巴旗下的1688平台提供了商品详情API接口。本文将介绍如何使用1688商品详情API接口获取商品信息,并通过代码示例进行详细说明。
|
机器学习/深度学习
基于DSP的音频信号处理
基于DSP的音频信号处理
943 2