java判断字符串(含中文)的内容相似度

简介: java判断字符串(含中文)的内容相似度
/**
     * 判断地址相似
     * 此处简单的判断字符串的内容80%相似即可
     * @param str1
     * @param str2
     * @return
     */
    public static boolean isNearby(String str1, String str2) {
   
        Map<Character, int[]> vectorMap = new HashMap<>();
        char[] chArray1 = str1.toCharArray();
        for (char c : chArray1) {
   
            if (vectorMap.containsKey(c)) {
   
                vectorMap.get(c)[0]++;
            } else {
   
                int[] arr = new int[2];
                arr[0] = 1;
                vectorMap.put(c, arr);
            }
        }
        char[] chArray2 = str2.toCharArray();
        for (char c : chArray2) {
   
            if (vectorMap.containsKey(c)) {
   
                vectorMap.get(c)[1]++;
            } else {
   
                int[] arr = new int[2];
                arr[1] = 1;
                vectorMap.put(c, arr);
            }
        }
        double vector1Modulo = 0;
        double vector2Modulo = 0;
        double vectorProduct = 0;
        for (Map.Entry<Character, int[]> entry : vectorMap.entrySet()) {
   
            int[] arr = entry.getValue();
            vector1Modulo += arr[0] * arr[0];
            vector2Modulo += arr[1] * arr[1];
            vectorProduct += arr[0] * arr[1];
        }
        vector1Modulo = Math.sqrt(vector1Modulo);
        vector2Modulo = Math.sqrt(vector2Modulo);
        if (vector1Modulo == 0 || vector2Modulo == 0) {
   
            return false;
        } else {
   
            double v = vectorProduct / (vector1Modulo * vector2Modulo);
            return  v >= 0.8;
        }
    }
相关文章
|
3天前
|
SQL JSON Java
告别字符串拼接:用Java文本块优雅处理多行字符串
告别字符串拼接:用Java文本块优雅处理多行字符串
176 108
|
3月前
|
自然语言处理 Java Apache
在Java中将String字符串转换为算术表达式并计算
具体的实现逻辑需要填写在 `Tokenizer`和 `ExpressionParser`类中,这里只提供了大概的框架。在实际实现时 `Tokenizer`应该提供分词逻辑,把输入的字符串转换成Token序列。而 `ExpressionParser`应当通过递归下降的方式依次解析
221 14
|
3月前
|
SQL JSON Java
告别拼接噩梦:Java文本块让多行字符串更优雅
告别拼接噩梦:Java文本块让多行字符串更优雅
380 82
|
7月前
|
存储 缓存 安全
Java字符串缓冲区
字符串缓冲区是用于处理可变字符串的容器,Java中提供了`StringBuffer`和`StringBuilder`两种实现。由于`String`类不可变,当需要频繁修改字符串时,使用缓冲区更高效。`StringBuffer`是一个线程安全的容器,支持动态扩展、任意类型数据转为字符串存储,并提供多种操作方法(如`append`、`insert`、`delete`等)。通过这些方法,可以方便地对字符串进行添加、插入、删除等操作,最终将结果转换为字符串。示例代码展示了如何创建缓冲区对象并调用相关方法完成字符串操作。
143 13
|
7月前
|
存储 缓存 安全
Java 字符串详解
本文介绍了 Java 中的三种字符串类型:String、StringBuffer 和 StringBuilder,详细讲解了它们的区别与使用场景。String 是不可变的字符串常量,线程安全但操作效率较低;StringBuffer 是可变的字符串缓冲区,线程安全但性能稍逊;StringBuilder 同样是可变的字符串缓冲区,但非线程安全,性能更高。文章还列举了三者的常用方法,并总结了它们在不同环境下的适用情况及执行速度对比。
168 17
|
11月前
|
SQL Java 索引
java小工具util系列2:字符串工具
java小工具util系列2:字符串工具
247 83
|
11月前
|
Java 数据库
java小工具util系列1:日期和字符串转换工具
java小工具util系列1:日期和字符串转换工具
187 26
|
11月前
|
存储 缓存 安全
java 中操作字符串都有哪些类,它们之间有什么区别
Java中操作字符串的类主要有String、StringBuilder和StringBuffer。String是不可变的,每次操作都会生成新对象;StringBuilder和StringBuffer都是可变的,但StringBuilder是非线程安全的,而StringBuffer是线程安全的,因此性能略低。
289 8
|
11月前
|
缓存 算法 Java
本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制
在现代软件开发中,性能优化至关重要。本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制。通过调整垃圾回收器参数、优化堆大小与布局、使用对象池和缓存技术,开发者可显著提升应用性能和稳定性。
170 6