hanlp提取文本关键词的使用方法记录

简介: 如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。

本文是csu_zipple 分享的关于使用hanlp汉语言处理包提取关键词的过程一个简单的记录分享。想要使用hanlp提取文本关键词的新手朋友们可以参考学习一下!

如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。

   下载:.jar .properties data等文件

请到大快搜索官网下载 HanLP新版本1.7.1数据包下载gitub上也可以下载

   intellij中配置环境,并运行第一个demo

在项目中配置jar包,添加依赖。

file->Project Structure->Modules->Dependencies->+Jars

e6283e6f36dd910c3518640e8d03b7d9090edb96 


properties文件转移到src根目录下,修改root为自己的数据集路径

 

63d15f77a64a441666252c8d392f9cea27f5b420

  运行第一个demo

 

1 public class TestHanLP {

2    public static void main(String[] args) {

3        System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));

4    }

5 }

 

可能的错误

 

字符类型对应表加载失败:D:/BaiduYunDownload/data-for-1.3.3/data/dictionary/other/CharType.dat.yes

 

解决办法:查看错误提示页面下是否有该文件,如果没有则去网上下载一个。像我这里,由于只是使用其一部分功能,为了方便就不再下载了,这里我直接修改了一个文件的文件名—–成功运行!。

 

55b88f35c8ee55ccb671c637f630e90138cc537d

成功运行

b7af59a3f95c8cbcaaaa15d78360ba17250eabce

 


 

相关文章
|
22天前
|
自然语言处理 API
分词提取[关键词提取]免费API接口教程
接口用于从指定文本中提取关键词,支持POST和GET请求。需提供用户ID、用户KEY及待提取文本,可选设置关键词分隔符。返回状态码及结果或错误信息。示例中ID与KEY为公共测试用,建议使用个人ID与KEY以获得更高调用频率。
|
22天前
|
API
查词语字典[38万词库]免费API接口教程
此接口用于查询指定词语的解释信息。支持POST或GET请求,需提供用户ID、用户KEY及待查询词语(URL编码)。返回状态码、信息提示及词语释义。示例中ID与KEY为公共账号,建议使用个人账号以享受更高调用频率。
|
7月前
|
关系型数据库 MySQL
Mysql基础第二十一天,全文本搜索
Mysql基础第二十一天,全文本搜索
53 0
|
7月前
|
存储 数据处理 索引
大文本的全文检索方案附件索引
大文本的全文检索方案附件索引
129 0
谈一谈|Word文档图片的提取
谈一谈|Word文档图片的提取
167 0
|
自然语言处理 搜索推荐 Python
jieba分词器(应用及字典的补充)及文档高频词提取实战
jieba分词器(应用及字典的补充)及文档高频词提取实战
|
自然语言处理 Go
Golang每日一练(leetDay0074) 词典类设计、单词搜索II
Golang每日一练(leetDay0074) 词典类设计、单词搜索II
135 0
|
SQL 人工智能 自然语言处理
【Solr】之使用结巴分词模拟搜索商品1
【Solr】之使用结巴分词模拟搜索商品1
135 0
【Solr】之使用结巴分词模拟搜索商品1
|
算法 数据挖掘 C++
Github13K!相似搜索百宝箱,文本匹配入门必备!
Github13K!相似搜索百宝箱,文本匹配入门必备!
Github13K!相似搜索百宝箱,文本匹配入门必备!
|
机器学习/深度学习 搜索推荐 数据处理
这就是搜索引擎读书笔记-day3-5.检索模型与搜索排序
搜索结果排序融合了上百种排序因子,而重要两因素是:用户查询和网页内容相关性 及 网页链接情况。本节介绍内容相关性介绍网页排序
这就是搜索引擎读书笔记-day3-5.检索模型与搜索排序
下一篇
DataWorks