Java - 源码之 Arrays 内部排序 TimSort 实现

简介: Java - 源码之 Arrays 内部排序 TimSort 实现

Timsort是结合了合并排序(merge sort)插入排序insertion sort)而得出的排序算法,它在现实中有很好的效率。Tim Peters在2002年设计了该算法并在Python中使用(TimSort 是 Python 中 list.sort 的默认实现)。该算法找到数据中已经排好序的块-分区,每一个分区叫一个run,然后按规则合并这些run。Pyhton自从2.3版以来一直采用Timsort算法排序,JDK 1.7开始也采用Timsort算法对数组排序。

在Arrays工作类里有sort()方法可以用来排序,jdk对所有基本类型设置设置了不同入参sort方法进行支持。

image.png

从源码上看,基本类型的排序都是使用了了DualPivotQuicksort的排序方法(我看的是jdk8,)。DualPivotQuicksort是快排的一种优化,具体在这里不展开了。


当参数类型为对象数组时,在原来的版本使用的归并排序(以后将会删除 ),现在使用的timSort。

publicstaticvoidsort(Object[] a) {
if (LegacyMergeSort.userRequested)
legacyMergeSort(a);
elseComparableTimSort.sort(a);
}
// 以后会抛弃,也不展开了,大家可以自己去看下归并排序/** To be removed in a future release. */privatestaticvoidlegacyMergeSort(Object[] a) {
Object[] aux=a.clone();
mergeSort(aux, a, 0, a.length, 0);
}

所以排序主要用了 ComparableTimSort.sort(Object[] a)。分为下面几个主要步骤:

数组个数小于32的情况

判断数组的大小,小于32使用二分插入排序

staticvoidsort(Object[] a, intlo, inthi) {
// 检查lo,hi的的准确性rangeCheck(a.length, lo, hi);
intnRemaining=hi-lo;
// 当长度为0或1时永远都是已经排序状态if (nRemaining<2)
return;
// 数组小的时候if (nRemaining<MIN_MERGE) {
//找出连续升序的最大个数intinitRunLen=countRunAndMakeAscending(a, lo, hi);
//二分插入排序binarySort(a, lo, hi, lo+initRunLen);
return;
    }
// 数组大于32的时   ......

找出最大的递增或者递减的个数,如果递减,则此段数组严格反一下方向

privatestaticintcountRunAndMakeAscending(Object[] a, intlo, inthi) {
intrunHi=lo+1;
if (runHi==hi)
return1;
// Find end of run, and reverse range if descendingif (((Comparable) a[runHi++]).compareTo(a[lo]) <0) { // 递减while (runHi<hi&& ((Comparable) a[runHi]).compareTo(a[runHi-1]) <0)
runHi++;
// 调整顺序reverseRange(a, lo, runHi);
    } else { // 递增                              while (runHi<hi&& ((Comparable) a[runHi]).compareTo(a[runHi-1]) >=0)
runHi++;
    }
returnrunHi-lo;
}

使用在使用二分查找位置,进行插入排序。start之前为全部递增数组,从start+1开始进行插入,插入位置使用二分法查找。最后根据移动的个数使用不同的移动方法。

privatestaticvoidbinarySort(Object[] a, intlo, inthi, intstart) {
if (start==lo)
start++;
for ( ; start<hi; start++) {
Comparable<Object>pivot= (Comparable) a[start];
intleft=lo;
intright=start;
while (left<right) {
intmid= (left+right) >>>1;
if (pivot.compareTo(a[mid]) <0)
right=mid;
elseleft=mid+1;
        }
intn=start-left;  // 要移动的个数// 移动的方法switch (n) {
case2:  a[left+2] =a[left+1];
case1:  a[left+1] =a[left];
break;
// native复制数组方法default: System.arraycopy(a, left, a, left+1, n);
        }
a[left] =pivot;
    }
}

数组个数大于32的情况

数组大于32时, 先算出一个合适的大小,在将输入按其升序和降序特点进行了分区。排序的输入的单位不是一个个单独的数字,而是一个个的块-分区。其中每一个分区叫一个run。针对这些 run 序列,每次拿一个run出来按规则进行合并。每次合并会将两个run合并成一个 run。合并的结果保存到栈中。合并直到消耗掉所有的run,这时将栈上剩余的 run合并到只剩一个 run 为止。这时这个仅剩的 run 便是排好序的结果。

staticvoidsort(Object[] a, intlo, inthi) {
// 小于32    ......
// 大于32的情况ComparableTimSortts=newComparableTimSort(a);
// 计算出run的长度intminRun=minRunLength(nRemaining);
do {
// 找出连续升序的最大个数intrunLen=countRunAndMakeAscending(a, lo, hi);
// 如果run长度小于规定的minRun长度,先进行二分插入排序if (runLen<minRun) {
intforce=nRemaining<=minRun?nRemaining : minRun;
binarySort(a, lo, lo+force, lo+runLen);
runLen=force;
        }
// Push run onto pending-run stack, and maybe mergets.pushRun(lo, runLen);
// 进行归并ts.mergeCollapse();
lo+=runLen;
nRemaining-=runLen;
    } while (nRemaining!=0);
// 归并所有的runts.mergeForceCollapse();
}

计算出run的最小的长度minRun

a)如果数组大小为2的N次幂,则返回16(MIN_MERGE / 2)

b)其他情况下,逐位向右位移(即除以2),直到找到介于16和32间的一个数

privatestaticintminRunLength(intn) {
// Becomes 1 if any 1 bits are shifted offintr=0;      
while (n>=MIN_MERGE) {
r|= (n&1);
n>>=1;
    }
returnn+r;
}

求最小递增的长度,如果长度小于minRun,使用插入排序补充到minRun的个数,操作和小于32的个数是一样。

用stack记录每个run的长度,当下面的条件其中一个成立时归并,直到数量不变

  • runLen[i - 3] > runLen[i - 2] + runLen[i - 1]
  • runLen[i - 2] > runLen[i - 1]
privatevoidmergeCollapse() {
while (stackSize>1) {
intn=stackSize-2;
if (n>0&&runLen[n-1] <=runLen[n] +runLen[n+1]) {
if (runLen[n-1] <runLen[n+1])
n--;
// 具体的归并操作mergeAt(n);
        } elseif (runLen[n] <=runLen[n+1]) {
mergeAt(n);
        } else {
break; // Invariant is established        }
    }
}

关于归并方法和对一般的归并排序做出了简单的优化。假设两个 run 是 run1,run2 ,先用 gallopRight在 run1 里使用 binarySearch 查找run2 首元素 的位置k, 那么 run1 中 k 前面的元素就是合并后最小的那些元素。然后,在run2 中查找run1 尾元素 的位置 len2 ,那么run2 中 len2 后面的那些元素就是合并后最大的那些元素。最后,根据len1 与len2 大小,调用mergeLo 或者 mergeHi 将剩余元素合并。

privatevoidmergeAt(inti) {
intbase1=runBase[i];
intlen1=runLen[i];
intbase2=runBase[i+1];
intlen2=runLen[i+1];
runLen[i] =len1+len2;
if (i==stackSize-3) {
runBase[i+1] =runBase[i+2];
runLen[i+1] =runLen[i+2];
    }
stackSize--;
intk=gallopRight((Comparable<Object>) a[base2], a, base1, len1, 0);
assertk>=0;
base1+=k;
len1-=k;
if (len1==0)
return;
len2=gallopLeft((Comparable<Object>) a[base1+len1-1], a,
base2, len2, len2-1);
assertlen2>=0;
if (len2==0)
return;
if (len1<=len2)
mergeLo(base1, len1, base2, len2);
elsemergeHi(base1, len1, base2, len2);
}

最后归并还有没有归并的run,知道run的数量为1

例子

为了演示方便,我将TimSort中的minRun直接设置为2,否则我不能用很小的数组演示。。。同时把MIN_MERGE也改成2(默认为32),这样避免直接进入二分插入排序。

初始数组为[7,5,1,2,6,8,10,12,4,3,9,11,13,15,16,14]


寻找第一个连续的降序或升序序列:[1,5,7] [2,6,8,10,12,4,3,9,11,13,15,16,14]


stackSize=1,所以不合并,继续找第二个run


找到一个递减序列,调整次序:[1,5,7] [2,6,8,10,12] [4,3,9,11,13,15,16,14]


因为runLen[0]<=runLen[1]所以归并

1) gallopRight:寻找run1的第一个元素应当插入run0中哪个位置(”2”应当插入”1”之后),然后就可以忽略之前run0的元素(都比run1的第一个元素小)

2) gallopLeft:寻找run0的最后一个元素应当插入run1中哪个位置(”7”应当插入”8”之前),然后就可以忽略之后run1的元素(都比run0的最后一个元素大)

这样需要排序的元素就仅剩下[5,7] [2,6],然后进行mergeLow 完成之后的结果: [1,2,5,6,7,8,10,12] [4,3,9,11,13,15,16,14]


寻找连续的降序或升序序列[1,2,5,6,7,8,10,12] [3,4] [9,11,13,15,16,14]


不进行归并排序,因为runLen[0]>runLen[1]


寻找连续的降序或升序序列:[1,2,5,6,7,8,10,12] [3,4] [9,11,13,15,16] [14]


因为runLen[1]<=runLen[2],所以需要归并


使用gallopRight,发现为正常顺序。得[1,2,5,6,7,8,10,12] [3,4,9,11,13,15,16] [14]


最后只剩下[14]这个元素:[1,2,5,6,7,8,10,12] [3,4,9,11,13,15,16] [14]


因为runLen[0]<=runLen[1]+runLen[2]所以合并。因为runLen[0]>runLen[2],所以将run1和run2先合并。(否则将run0和run1先合并)

完成之后的结果: [1,2,5,6,7,8,10,12] [3,4,9,11,13,14,15,16]


完成之后的结果:[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]

性能分析

本质上 Timsort 是一个经过大量优化的归并排序,而归并排序已经到达了最坏情况下,比较排序算法时间复杂度的下界,所以在最坏的情况下,Timsort 时间复杂度为 O(nlogn) O(nlogn)O(nlogn)。在最佳情况下,即输入已经排好序,它则以线性时间运行O(n) O(n)O(n)。可以看出Timsort是目前最好的排序方式。


目录
相关文章
|
1月前
|
Java Apache Maven
Java百项管理之新闻管理系统 熟悉java语法——大学生作业 有源码!!!可运行!!!
文章提供了使用Apache POI库在Java中创建和读取Excel文件的详细代码示例,包括写入数据到Excel和从Excel读取数据的方法。
58 6
Java百项管理之新闻管理系统 熟悉java语法——大学生作业 有源码!!!可运行!!!
|
2月前
|
数据采集 运维 前端开发
【Java】全套云HIS源码包含EMR、LIS (医院信息化建设)
系统技术特点:采用前后端分离架构,前端由Angular、JavaScript开发;后端使用Java语言开发。
74 5
|
2天前
|
人工智能 监控 数据可视化
Java智慧工地信息管理平台源码 智慧工地信息化解决方案SaaS源码 支持二次开发
智慧工地系统是依托物联网、互联网、AI、可视化建立的大数据管理平台,是一种全新的管理模式,能够实现劳务管理、安全施工、绿色施工的智能化和互联网化。围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三大体系为基础应用,实现全面高效的工程管理需求,满足工地多角色、多视角的有效监管,实现工程建设管理的降本增效,为监管平台提供数据支撑。
12 3
|
8天前
|
运维 自然语言处理 供应链
Java云HIS医院管理系统源码 病案管理、医保业务、门诊、住院、电子病历编辑器
通过门诊的申请,或者直接住院登记,通过”护士工作站“分配患者,完成后,进入医生患者列表,医生对应开具”长期医嘱“和”临时医嘱“,并在电子病历中,记录病情。病人出院时,停止长期医嘱,开具出院医嘱。进入出院审核,审核医嘱与住院通过后,病人结清缴费,完成出院。
30 3
|
13天前
|
JavaScript Java 项目管理
Java毕设学习 基于SpringBoot + Vue 的医院管理系统 持续给大家寻找Java毕设学习项目(附源码)
基于SpringBoot + Vue的医院管理系统,涵盖医院、患者、挂号、药物、检查、病床、排班管理和数据分析等功能。开发工具为IDEA和HBuilder X,环境需配置jdk8、Node.js14、MySQL8。文末提供源码下载链接。
|
16天前
|
移动开发 前端开发 JavaScript
java家政系统成品源码的关键特点和技术应用
家政系统成品源码是已开发完成的家政服务管理软件,支持用户注册、登录、管理个人资料,家政人员信息管理,服务项目分类,订单与预约管理,支付集成,评价与反馈,地图定位等功能。适用于各种规模的家政服务公司,采用uniapp、SpringBoot、MySQL等技术栈,确保高效管理和优质用户体验。
|
1月前
|
JSON 前端开发 Java
震惊!图文并茂——Java后端如何响应不同格式的数据给前端(带源码)
文章介绍了Java后端如何使用Spring Boot框架响应不同格式的数据给前端,包括返回静态页面、数据、HTML代码片段、JSON对象、设置状态码和响应的Header。
125 1
震惊!图文并茂——Java后端如何响应不同格式的数据给前端(带源码)
|
1月前
|
存储 搜索推荐 算法
【用Java学习数据结构系列】七大排序要悄咪咪的学(直接插入,希尔,归并,选择,堆排,冒泡,快排)以及计数排序(非比较排序)
【用Java学习数据结构系列】七大排序要悄咪咪的学(直接插入,希尔,归并,选择,堆排,冒泡,快排)以及计数排序(非比较排序)
22 1
|
1月前
|
存储 前端开发 Java
Java后端如何进行文件上传和下载 —— 本地版(文末配绝对能用的源码,超详细,超好用,一看就懂,博主在线解答) 文件如何预览和下载?(超简单教程)
本文详细介绍了在Java后端进行文件上传和下载的实现方法,包括文件上传保存到本地的完整流程、文件下载的代码实现,以及如何处理文件预览、下载大小限制和运行失败的问题,并提供了完整的代码示例。
351 1
|
1月前
|
存储 安全 Java
Java数组(Arrays)详解
Java 中的数组是一种用于存储固定数量同类型数据的高效数据结构,支持连续内存存储和随机访问。数组可以声明并初始化,通过索引访问和修改元素,获取长度,使用循环遍历,支持多维形式,并可通过 `Arrays` 类的方法进行复制和排序。数组具有固定大小和类型安全的特点,但需注意越界等问题。灵活运用数组能显著提升编程效率。