利用HanLP计算中文词语语义相似度

简介:

HanLP官方GitHub地址
HanLP

在java项目中配置HanLP
推荐使用Maven方法
在poem.xml中加入以下代码

<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.3</version>


但是在AndroidStudio中,没有Maven,所以在build.gradle的dependencies中加入如下代码

compile "com.hankcs:hanlp:portable-1.3.3"
还可以下载jar包和data包,使用hanlp.properties进行手动配置
在 IntelliJ IDEA中进入file -> project structure,在Libraries中添加jar包

更改hanlp.properties中的首行,指向data包所在的位置

将hanlp.properties放在out -> production -> name目录下

调用HanLP
import com.hankcs.hanlp.dictionary.CoreSynonymDictionary;
只需要以上语句便可以使用HanLP

//使用hanlp计算语义距离
double[] numarray = new double[title_list.size()];

for (int i = 0; i < results.size(); i++) {
    for (int j = 0; j < title_list.size(); j++) {
        numarray[j] += CoreSynonymDictionary.similarity(results.get(i).name().toString(), title_list.get(j).toString());
    }
}

文章来源于citySouth的博客

相关文章
|
7月前
|
自然语言处理 Python
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
1350 0
|
7月前
|
机器学习/深度学习 移动开发 自然语言处理
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
|
机器学习/深度学习 数据采集 存储
【英文文本分类实战】之四——词典提取与词向量提取
【英文文本分类实战】之四——词典提取与词向量提取
267 0
【英文文本分类实战】之四——词典提取与词向量提取
|
存储 BI C#
一个词语总结2022,你的是什么? | 2022 年度总结
2022马上即将过去。近期各种软件,各大平台也都发布自己专属的年度回忆录,我也抓住22年的最后一天的小尾巴,写一篇年终总结,向2022说再见吧~
192 0
一个词语总结2022,你的是什么? | 2022 年度总结
|
Java Maven Android开发
给定一个汉字句子,可以输出句子的读音。借鉴第三方库:pinyin4j 。
给定一个汉字句子,可以输出句子的读音。借鉴第三方库:pinyin4j 。
给定一个汉字句子,可以输出句子的读音。借鉴第三方库:pinyin4j 。
|
机器学习/深度学习 自然语言处理 算法
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
173 0
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
|
机器学习/深度学习 自然语言处理 算法
通用句子向量漫谈
句子向量漫谈 # 背景 ​ 近期业务需要使用文本上下文语义特征,而将文本进行编码和表征是NLP最核心的技术之一,于是调研了表征文本的相关技术,总结如下, 以飨后人。 ## 混沌未开 ​ 在word2vec诞生之前,NLP中并没有一个统一的方法去表示一段文本。
1509 0
|
自然语言处理 Java C++
Hanlp分词之CRF中文词法分析详解
这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口。   CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习。 默认模型训练自OpenCorpus/pku98/199801.txt,随hanlp 1.6.2以上版本发布。
3566 0
|
自然语言处理 算法 Java
基于CRF序列标注的中文依存句法分析器的Java实现
这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s
3786 0