中文文本相似度计算工具集

简介: 欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!一、基本工具集1.

欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

一、基本工具集

1.分词工具

a.jieba

结巴中文分词

https://github.com/fxsjy/jieba

b.HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

e.BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.关键词提取

TF-IDF

技术原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

 

TextRank

技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3.词向量

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

 

4.距离计算

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

二、常用算法

 

1.中文分词+TF-IDF+word2vec+cosine 距离计算

 

2.doc2vec

原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

 

3.simhash

原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现:https://github.com/yanyiwu/simhash

 

三、文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址:

http://www.tensorflownews.com/

本篇文章出自http://www.tensorflownews.com,对深度学习感兴趣,热爱Tensorflow的小伙伴,欢迎关注我们的网站!

目录
相关文章
|
缓存 监控 算法
jvm性能调优实战 - 39一次大促导致的内存泄漏和Full GC优化
jvm性能调优实战 - 39一次大促导致的内存泄漏和Full GC优化
622 0
|
4月前
|
SQL 人工智能 关系型数据库
RDS AI助手的能力详解与Demo演示
阿里云数据库RDS「RDS AI助手」正式上线啦!你的AI打工人来了!用聊天的方式,帮你搞定 信息查询、问题诊断、慢SQL优化、实例巡检 等一系列数据库运维任务,更能随你调遣,定制最贴近你业务的个性化Agent!欢迎钉钉搜索群号:106730017609 入群交流
|
10月前
|
Oracle Java 关系型数据库
java 入门学习视频_2025 最新 java 入门零基础学习视频教程
《Java 21 入门实操指南(2025年版)》提供了Java最新特性的开发指导。首先介绍了JDK 21和IntelliJ IDEA 2025.1的环境配置,包括环境变量设置和预览功能启用。重点讲解了Java 21三大核心特性:虚拟线程简化高并发编程,Record模式优化数据解构,字符串模板提升字符串拼接可读性。最后通过图书管理系统案例,展示如何运用Record定义实体类、使用Stream API进行数据操作,以及结合字符串模板实现控制台交互。该指南完整呈现了从环境搭建到实际项目开发的Java 21全流程实
569 1
|
数据采集 分布式计算 监控
月之暗面Kimi大模型海量数据预处理实践
加速大模型的训练迭代,在模型数据预处理方面,需要高性价比、弹性灵活的 CPU 和 GPU 算力满足模型迭代的业务实践。
|
机器学习/深度学习 数据可视化 计算机视觉
DeepSeek迁移学习与预训练模型应用
迁移学习利用预训练模型加速新任务训练,尤其在数据有限时效果显著。DeepSeek提供丰富的预训练模型和工具,支持图像、文本等多类型数据的迁移学习。本文详细介绍了如何使用DeepSeek进行特征提取、微调预训练模型、文本分类和目标检测,并通过代码示例帮助读者掌握这些技巧,解决常见问题,快速构建高性能模型。
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
1173 1
|
机器学习/深度学习 自然语言处理 算法
AIGC技术到底是什么?为什么这么火热?
AIGC技术到底是什么?为什么这么火热?
798 0