前言
我们经常使用java中的sort排序,确实好用,但是其中原理大多数人都是不了解的。
面试中也经常会问到各种排序算法,但是java中用的到底是哪种排序呢?
本文就带你通过源码解析,了解其中的原理,如果只想知道结果,可以直接跳转到第四章-总结。
PS:Collections.sort调用的其实也是Arrays.sort()方法,所以本文只针对Arrays.sort()方法进行解读,且基于JDK1.8进行。
第一章:根据数组长度分类
我们查看源码,可以看到sort最终调用的是DualPivotQuicksort类的sort方法
/**
* Sorts the specified range of the array using the given
* workspace array slice if possible for merging
*
* @param a the array to be sorted
* @param left the index of the first element, inclusive, to be sorted
* @param right the index of the last element, inclusive, to be sorted
* @param work a workspace array (slice)
* @param workBase origin of usable space in work array
* @param workLen usable size of work array
*/
static void sort(int[] a, int left, int right,
int[] work, int workBase, int workLen) {
...
}
几个参数
a:待排序的数组本身
left:待排序的数组从第几位开始排序。
right:待排序的数组排序截止到第几位。如果对整个数组的话,那left=0,right=a.length-1
正常sort排序中并不会使用下面三个参数,但是大数据量的排序时,可以使用Arrays.paralleSort()方法,这个方法里面会调用sort方法,使用下面的参数。由于本文的重点是sort方法,所以姑且认为下面三个参数都为null或者0,不参与运算。
work:
workBase:
workLen:
第二章:数组数量大于等于286时。
sort排序方法的第一行我们就可以看到下面这个判断条件,
// Use Quicksort on small arrays
if (right - left < QUICKSORT_THRESHOLD) {
sort(a, left, right, true);
return;
}
1.数组长度小于286时,使用另外一种排序逻辑,具体第三章会介绍。本章先只看大于等于286时的情况。
首先会对数组进行一遍遍历,统计升序,逆序,以及相等的数量。
2.相邻的逆序的数量大于等于67,或者相邻的相等的数量大于等于33,则也会触发第三章的逻辑。
3.如果上述两个条件都没有触发,则判断相邻非顺序数量是否等于1,如果等于1说明是已经排好序了,就不用进行下面的排序了。
这里为什么是1呢?那是因为count一定会被执行一次,所以count至少为1。
4.如果上面的逻辑都没有触发,则会进入到归并排序的逻辑。
/*
* Index run[i] is the start of i-th run
* (ascending or descending sequence).
*/
int[] run = new int[MAX_RUN_COUNT + 1];
int count = 0; run[0] = left;
// Check if the array is nearly sorted
for (int k = left; k < right; run[count] = k) {
if (a[k] < a[k + 1]) { // ascending
while (++k <= right && a[k - 1] <= a[k]);
} else if (a[k] > a[k + 1]) { // descending
while (++k <= right && a[k - 1] >= a[k]);
for (int lo = run[count] - 1, hi = k; ++lo < --hi; ) {
int t = a[lo]; a[lo] = a[hi]; a[hi] = t;
}
} else { // equal
for (int m = MAX_RUN_LENGTH; ++k <= right && a[k - 1] == a[k]; ) {
if (--m == 0) {
sort(a, left, right, true);
return;
}
}
}
/*
* The array is not highly structured,
* use Quicksort instead of merge sort.
*/
if (++count == MAX_RUN_COUNT) {
sort(a, left, right, true);
return;
}
}
// Check special cases
// Implementation note: variable "right" is increased by 1.
if (run[count] == right++) { // The last run contains one element
run[++count] = right;
} else if (count == 1) { // The array is already sorted
return;
}
...
// Merging
for (int last; count > 1; count = last) {
for (int k = (last = 0) + 2; k <= count; k += 2) {
int hi = run[k], mi = run[k - 1];
for (int i = run[k - 2], p = i, q = mi; i < hi; ++i) {
if (q >= hi || p < mi && a[p + ao] <= a[q + ao]) {
b[i + bo] = a[p++ + ao];
} else {
b[i + bo] = a[q++ + ao];
}
}
run[++last] = hi;
}
if ((count & 1) != 0) {
for (int i = right, lo = run[count - 1]; --i >= lo;
b[i + bo] = a[i + ao]
);
run[++last] = right;
}
int[] t = a; a = b; b = t;
int o = ao; ao = bo; bo = o;
}
第三章:数组数量小于47时
sort(int[] a, int left, int right, boolean leftmost) 方法中,会在此对排序的长度进行判断,如果小于47时,代码如下,会进行如下的逻辑。
if (length < INSERTION_SORT_THRESHOLD) {
if (leftmost) {
/*
* Traditional (without sentinel) insertion sort,
* optimized for server VM, is used in case of
* the leftmost part.
*/
for (int i = left, j = i; i < right; j = ++i) {
int ai = a[i + 1];
while (ai < a[j]) {
a[j + 1] = a[j];
if (j-- == left) {
break;
}
}
a[j + 1] = ai;
}
} else {
/*
* Skip the longest ascending sequence.
*/
do {
if (left >= right) {
return;
}
} while (a[++left] >= a[left - 1]);
/*
* Every element from adjoining part plays the role
* of sentinel, therefore this allows us to avoid the
* left range check on each iteration. Moreover, we use
* the more optimized algorithm, so called pair insertion
* sort, which is faster (in the context of Quicksort)
* than traditional implementation of insertion sort.
*/
for (int k = left; ++left <= right; k = ++left) {
int a1 = a[k], a2 = a[left];
if (a1 < a2) {
a2 = a1; a1 = a[left];
}
while (a1 < a[--k]) {
a[k + 2] = a[k];
}
a[++k + 1] = a1;
while (a2 < a[--k]) {
a[k + 1] = a[k];
}
a[k + 1] = a2;
}
int last = a[right];
while (last < a[--right]) {
a[right + 1] = a[right];
}
a[right + 1] = last;
}
return;
}
这里我们会发现一个参数leftmost,leftmost代表的意思是,数组中的树,是否都大于最左侧的那个数字。false的时候代表数组中的数字都大于等于最左侧的,true的时候代表不是。这个参数主要是为了快速排序而准备的。只有快速排序的时候,才会有leftmost=false的场景。
1.如果leftmost=true,从第二章进入到此的逻辑,leftmost都为true,这时候,直接进行插入排序。
2.如果leftmost=false,说明数组中最左侧的数是数组选择范围中最小的。这时候采用插入排序的优化版去排序。PS:毕竟第一数最小不需要排序了嘛。
为什么数量小于47时使用插入排序呢?原因是CPU的运算速度是很快的,小于47时,运算数量并不会很大,所以这时候O(nlogn)复杂度的优势并不明显,插入排序不需要归并排序那样额外的空间,也不需要双轴快排那样去计算标杆位。因此反而会更有优势。
第四章:数组数量大于等于47时
这时候使用的是双轴快速排序优化版。
请注意,这里的用词是双轴快排,而不是快速排序。双轴快排相对于快速排序,多了一条比较轴,交换的次数更多,但是访问的次数会下降。
当然,JDK用的并不完完全全是双轴快排,而是基于双轴快排,先排序依次,把数组分成三段,然后基于这三段各自选择其适合的排序方式去进行排序。
如何选择适合的方式?分成三小段后,重新走sort排序方法。
第四章:总结
所以,java中的sort方法并不是选择了某一种排序算法,而是一种综合体,根据待排序的数组的长度,以及数组中正序和逆序的数量来决定使用什么样的排序。
总结一下就是下面这三条。
1.数组数量大于等于286,并且数组中相邻的逆序数量小于67,并且相邻的相等数量小于33,使用归并排序。否则进入条件2;
2.数组数量小于47,使用插入排序。否则进入条件3;
3.使用双轴快排。