Java代码工具之中英文语句分词

简介: 中文语句分词支持的分词算法包括Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种;英文语句分词支持的分词算法包括IKAnalysis、StanfordNlp等两种主流算法。

在自然语言处理中比较热门的操作就是中文或英文语句分词了,分词就是按照不同的算法和参数将语句分成若干词汇。拆分后的关键词可以进行词频统计或者词云图片生成等,能够快速方便的找到语句的核心主题热点。
在java开发中,如果单纯进行原始功能开发,分词功能耗时耗力,效果不一定能达到理想结果。有一个比较流行的代码工具平台“昂焱数据”,其官方网址为www.ayshuju.com。上面有封装好的各种功能代码工具。该网站上的“语句分词及相似度对比”java代码工具可以直接使用,中文语句分词支持的分词算法包括Lucene、Ansj、corenlp、HanLP、IKAnalyzer、Jcseg、Jieba、mmseg4j、MYNLP、Word等10种;英文语句分词支持的分词算法包括IKAnalysis、StanfordNlp等两种主流算法。
下面将“语句分词及相似度对比”工具使用步骤做一下记录:
第一步:下载并安装jar到本地maven库
登录该网站,在“代码工具”一栏找到“语句分词及相似度对比”代码工具,代码工具如下图所示:
image.png
下载该代码工具并解压,双击“”执行,将提示的maven坐标粘贴到项目的pom文件中即可。image.png
image.png
第二步:将该jar包的maven坐标粘贴到项目的pom文件中
image.png
第三步:完整的测试代码如下


import com.angyan.tool.word.base.enums.ChineseTokenizerEnum;
import com.angyan.tool.word.base.enums.EnglishTokenizerEnum;
import com.angyan.tool.word.util.TokenizerUtil;
import java.util.List;

/**
 * @author angyankj
 */
public class ParticipleTest {
    public static void main(String[] args) {
        // 中文文本
        String chnContent = "昂焱数据是为IT行业各种角色人员提供丰富的一站式技术资源的平台!";
        // 中文分词
        String chnResult = TokenizerUtil.getChineseTokenizerResult(ChineseTokenizerEnum.ANSJ, chnContent);
        // 打印中文分词结果
        System.out.println(chnResult);
        // 英文文本
        String engContent = "Love is not a maybe thing. You know when you love someone.";
        // 英文分词
        List<String> engResult = TokenizerUtil.getEnglishTokenizerResult(EnglishTokenizerEnum.IKANALYZER, engContent);
        // 打印英文分词结果
        System.out.println(engContent);
    }
}

中文分词及英文分词的运行结果如下(分词之间以空格隔开):image.png

目录
相关文章
|
1月前
|
Java
在 Java 中捕获和处理自定义异常的代码示例
本文提供了一个 Java 代码示例,展示了如何捕获和处理自定义异常。通过创建自定义异常类并使用 try-catch 语句,可以更灵活地处理程序中的错误情况。
60 1
|
1月前
|
Java
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
69 9
|
24天前
|
SQL Java 索引
java小工具util系列2:字符串工具
java小工具util系列2:字符串工具
137 83
|
21天前
|
Java 开发者 微服务
Spring Boot 入门:简化 Java Web 开发的强大工具
Spring Boot 是一个开源的 Java 基础框架,用于创建独立、生产级别的基于Spring框架的应用程序。它旨在简化Spring应用的初始搭建以及开发过程。
38 6
Spring Boot 入门:简化 Java Web 开发的强大工具
|
24天前
|
Java 数据库
java小工具util系列1:日期和字符串转换工具
java小工具util系列1:日期和字符串转换工具
53 26
|
25天前
|
Java
java小工具util系列4:基础工具代码(Msg、PageResult、Response、常量、枚举)
java小工具util系列4:基础工具代码(Msg、PageResult、Response、常量、枚举)
48 24
|
7天前
|
前端开发 Java 测试技术
java日常开发中如何写出优雅的好维护的代码
代码可读性太差,实际是给团队后续开发中埋坑,优化在平时,没有那个团队会说我专门给你一个月来优化之前的代码,所以在日常开发中就要多注意可读性问题,不要写出几天之后自己都看不懂的代码。
43 2
|
21天前
|
Java 编译器 数据库
Java 中的注解(Annotations):代码中的 “元数据” 魔法
Java注解是代码中的“元数据”标签,不直接参与业务逻辑,但在编译或运行时提供重要信息。本文介绍了注解的基础语法、内置注解的应用场景,以及如何自定义注解和结合AOP技术实现方法执行日志记录,展示了注解在提升代码质量、简化开发流程和增强程序功能方面的强大作用。
60 5
|
21天前
|
存储 算法 Java
Java 内存管理与优化:掌控堆与栈,雕琢高效代码
Java内存管理与优化是提升程序性能的关键。掌握堆与栈的运作机制,学习如何有效管理内存资源,雕琢出更加高效的代码,是每个Java开发者必备的技能。
48 5
|
24天前
|
Java API 开发者
Java中的Lambda表达式:简洁代码的利器####
本文探讨了Java中Lambda表达式的概念、用途及其在简化代码和提高开发效率方面的显著作用。通过具体实例,展示了Lambda表达式如何在Java 8及更高版本中替代传统的匿名内部类,使代码更加简洁易读。文章还简要介绍了Lambda表达式的语法和常见用法,帮助开发者更好地理解和应用这一强大的工具。 ####