接上篇:https://developer.aliyun.com/article/1228287?groupCode=java
五、 Set对象排重
在Java语言中,Set数据结构可以用于对象排重,常见的Set类有HashSet、LinkedHashSet等。
1. 问题现象
编写了一个城市辅助类,从CSV文件中读取城市数据:
代码中使用HashSet数据结构,目的是为了避免城市数据重复,对读取的城市数据进行强制排重。
当输入文件内容如下时:
解析后的JSON结果如下:
但是,并没有对城市“北京”进行排重。
2. 问题分析
当向集合Set中增加对象时,首先集合计算要增加对象的hashCode,根据该值来得到一个位置用来存放当前对象。如在该位置没有一个对象存在的话,那么集合Set认为该对象在集合中不存在,直接增加进去。如果在该位置有一个对象存在的话,接着将准备增加到集合中的对象与该位置上的对象进行equals方法比较:如果该equals方法返回false,那么集合认为集合中不存在该对象,就把该对象放在这个对象之后;如果equals方法返回true,那么就认为集合中已经存在该对象了,就不会再将该对象增加到集合中了。
所以,在哈希表中判断两个元素是否重复要使用到hashCode方法和equals方法。hashCode方法决定数据在表中的存储位置,而equals方法判断表中是否存在相同的数据。
分析上面的问题,由于没有重写City类的hashCode方法和equals方法,就会采用Object类的hashCode方法和equals方法。其实现如下:
可以看出:Object类的hashCode方法是一个本地方法,返回的是对象地址;Object类的equals方法只比较对象是否相等。所以,对于两条完全一样的北京数据,由于在解析时初始化了不同的City对象,导致hashCode方法和equals方法值都不一样,必然被Set认为是不同的对象,所以没有进行排重。
那么,我们就重写把City类的hashCode方法和equals方法,代码如下:
重新支持测试程序,解析后的JSON结果如下:
结果正确,已经对城市“北京”进行排重。
3. 避坑方法
1) 当确定数据唯一时,可以使用List代替Set
当确定解析的城市数据唯一时,就没有必要进行排重操作,可以直接使用List来存储。
List<City> cityList = new ArrayList<>(1024); Iterator<CSVRecord> iterator = parser.iterator(); while (iterator.hasNext()) { cityList.add(parseCity(iterator.next())); } return cityList; |
2) 当确定数据不唯一时,可以使用Map代替Set
当确定解析的城市数据不唯一时,需要安装城市名称进行排重操作,可以直接使用Map进行存储。为什么不建议实现City类的hashCode方法,再采用HashSet来实现排重呢?首先,不希望把业务逻辑放在模型DO类中;其次,把排重字段放在代码中,便于代码的阅读、理解和维护。
3) 遵循Java语言规范,重写hashCode方法和equals方法
不重写hashCode方法和equals方法的自定义类不应该在Set中使用。
接下篇:https://developer.aliyun.com/article/1228285?spm=a2c6h.13148508.setting.24.7be64f0ebemzoR