菜鸟如何使用Hanlp

简介:

boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续筛选,然后制定第三个标准筛选,等等等等】
自己用了一下结巴分词,感觉对于人名,地名,机构名,只是泛泛地使用了一下。在实际分开的时候,并不能很好地分开机构名称。于是转而使用hanlp分词
但是hanlp分词的缺点是只有在java上可以用,但是java一向又是我的弱项。所以在这里写一篇博客从头至尾叙述一下怎么样使用hanlp
而且,小胖胖把我的电脑锁在北师图书馆柜子里了。我工作没有电脑可用,于是使用小胖的电脑,也就是说,所有的基本变量都需要我自己来配来下,因此也相当于是从一张白纸到使用hanlp的过程。
第一步:下载一个jdk
到openjdk官网去下一个,直接安装即可。
安装过后,要配置三个环境变量,分别是
1.JAVA_HOME:C:Program FilesJavajdk1.8.0_73
2.CLASSPATH: 就是这个jdk打开之后里面的那个lib的目录
3.PATH:就是jdk后面的bin目录
配置完成之后,在Windows底下的cmd上面,输入java -version看看有没有反应即可判断是否正确安装jdk
【我这里出现了个小问题,在胖胖的电脑里,不知道她之前安装过什么东西,自带了一个jre1.6 然而我安装的是jre1.8 在cmd里面报错,说找不到jre1.6 后来我看了网上的说法,说是也许你别的软件也会下载java环境,所以你可能有许多不同的包,系统在寻找路径的时候,默认会根据你上面配置的环境变量里面找。因此,需要把咱们最新下的那个环境变量放在一大堆环境变量的最前面,尝试即可。】

下载了jdk安装成功之后,第二步,下载eclipse
到官网去找,记住,x86是32位,x64是64位,下载之后设定project的位置【比如我设在了D盘的根目录,结果发现不太好,但是已经改不了了。。教训】
安装成功之后,第三步,去下载hanlp的各种东西
方法1.maven方法,下载一个0配置即可。【但是我不会玩儿】
方法2:先下载hanlp-1.2.8.jar这个jar包
http://hanlp.linrunsoft.com/services.html
再下载data.zip这个数据包,可以选择,选择下载标准数据or迷你数据or全部数据。大小不同。我下的是标准版的。40M
再下载hanlp.properties这个是一个以properties结尾的一个文件,我之前从来没见过,不过可以用txt打开。

第四步:把下载的这些东西导入到eclipse里面去。构建路径
1.把jar包导入到eclipse的lib目录下
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
2.自己在src里面创建一个包,在包里面创建一个类。包会在我设置的根目录D:/下面,类名称首字母必须大写?【貌似不大写的话,会被否决】
3.把data包解压,然后放在一个自己喜欢的路径【我的路径是D://py/】然后,在hanlp.properties这个文件里,把root修改为data存放的上一级目录。
4.把hanlp.properties拖动到src这个目录下
image

然后试验了一个demo测试,发现报错,然后点击import import com.hankcs.hanlp.HanLP;
然后run了一下程序,
image

依然报错,发现是没有把properties那个文件导入到bin目录下,再次打开test0320,在那个bin目录下复制properties文件
之后运行,成功了
image


文章来源于tianbwin2995的博客

相关文章
|
8月前
|
存储 Rust Go
Python 潮流周刊#16:优雅重要么?如何写出 Pythonic 的代码?
Python 潮流周刊#16:优雅重要么?如何写出 Pythonic 的代码?
75 0
|
5月前
|
XML 程序员 数据格式
豆瓣评分8.6!Python社区出版的Python故事教程,太强了!
Python 是活力四射的语言,是不断发展中的语言。就连使用 Python 多年的行者也不敢说对 Python 的方方面面都了解并可以自由运用,想必读者可能更加无法快速掌握所有重点技巧了。 今天给小伙伴们分享的这份手册是用互动的开发故事来探讨Pyfhonic开发的故事书籍,是一本Python语言详解书籍,由Python的行者根据自身经验组织而成,是为从来没有听说过Python的其他语言程序员准备的一份实用的导学性质的书,笔者试图将优化后的学习体验,通过故事的方式传达给读者。对于零基础的小白来说更建议入门后再来品读。
|
7月前
|
Web App开发 存储 iOS开发
技术笔记:Python简单获取知轩藏书仙草毒草榜
技术笔记:Python简单获取知轩藏书仙草毒草榜
|
8月前
|
Python
2024年最新【Python从零到壹】Python模块介绍与使用(1),2024年最新阿里面试场景题
2024年最新【Python从零到壹】Python模块介绍与使用(1),2024年最新阿里面试场景题
2024年最新【Python从零到壹】Python模块介绍与使用(1),2024年最新阿里面试场景题
|
8月前
|
人工智能 自然语言处理 前端开发
Python 潮流周刊#17:Excel 终于支持 Python 了、Meta 重磅开源新项目、Mojo 新得 1 亿美元融资
Python 潮流周刊#17:Excel 终于支持 Python 了、Meta 重磅开源新项目、Mojo 新得 1 亿美元融资
90 1
|
8月前
|
数据采集 存储 自然语言处理
手把手教会你使用Python进行jieba分词
手把手教会你使用Python进行jieba分词
751 0
|
8月前
|
自然语言处理 算法 Java
基于Python第三方插件实现西游记章节标注汉语拼音
基于Python第三方插件实现西游记章节标注汉语拼音
69 0
|
搜索推荐 Python
【小白必看】利用Python生成个性化名单Word文档
【小白必看】利用Python生成个性化名单Word文档
115 0
|
数据采集 自然语言处理 算法
java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码
java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码
50815 1
java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码
|
数据采集 自然语言处理 搜索推荐
【编程课堂】jieba-中文分词利器
在之前的文章【编程课堂】词云 wordcloud 中,我们曾使用过 jieba 库,当时并没有深入讲解,所以本次将其单独列出来详细讲解。

相关实验场景

更多