【算法与数据结构】归并排序的代码实现(详细图解)以及master公式的讲解

简介: 【算法与数据结构】归并排序的代码实现(详细图解)以及master公式的讲解


1、归并排序

归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用递归或者说是分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。

若将两个有序表合并成一个有序表,称为二路归并

1.1、算法描述

  • 把长度为n的输入序列分成两个长度为n/2的子序列;
  • 对这两个子序列分别采用归并排序;
  • 将两个排序好的子序列合并成一个最终的排序序列。

而将两个的有序数列合并成一个有序数列,我们称之为"归并",这就是归并排序名字的由来。

1.2、图解说明

一句话简单说:对L到R范围排序,可以先求出L到R的中点M。先让左侧数据排好序,然后再让右侧数据排好序,此时再将两个有序子序列整合成一个新的有序序列。

例如:

对一个数组[8,3,6,4,2,1,5,7]进行归并排序。

第一步:把长度为n的输入序列分成两个长度为n/2的子序列,新的子序列再分别分成两个长度为自身一半也就是n/4的子序列,以此类推。当分到单个子序列只剩下一个数字时,一个数字就是天然了有序,即此时左侧和右侧都排好序了。

第二步:将两个排序好的子序列合并成一个新的排序序列。首先在每个子序列中都有一个指针指向子序列的第一个元素,两个指针的元素两两比较,较小的元素先放入新的子序列中,然后指针挪动继续比较,直至全部放入新的子序列当中,即完成一次子序列合并。慢慢合并最终使所有元素都成有序,即完成归并排序。

这个思路过程是非常精髓的,理解了这个思路之后,就可以试着用代码实现了。

2、代码实现

要使用归并,首先需要知道数组arr以及数组最左L下标和最右R下标,因此需要求出并带入MergeSort当中。

int main()
{
  int arr[10] = { 8,3,6,4,2,1,5,7 };
  int sz = sizeof(arr) / sizeof(arr[0]);
  MergeSort(arr, 0, sz - 1);
  int i = 0;
  for ( i = 0; i < sz; i++)
  {
    printf("%d ", arr[i]);
  }
  return 0;
}

接下来看看MergeSort的实现。

  1. 首先是判断L是否等于R,如果L和R相等时就相当于是单个子序列中只存在了一个元素,而此时该子序列就为有序,因此不用进行操作直接返回即可,即if(L == R) return;
  2. 如果L不等于R时则认为该子序列中仍然可拆分,便求出mid中间值,并分别进行两次递归让两块递归范围有序,递归范围是L到mid、mid+1到R。
  3. 最后当递归结束时则代表L到mid、mid+1到R序列已有序,整体还无序,此时需要使用ExternalSort外部排序将这两个子序列整合成一个新的有序序列。
void MergeSort(int* arr, int L, int R)
{
  if (L == R)  //子序列只有一个数,默认为有序
  {
    return;
  }
  int mid = L + (R - L) / 2;
  MergeSort(arr, L, mid);
  MergeSort(arr, mid + 1, R);
  ExternalSort(arr, L, mid, R);
}

ExternalSort的作用就是让arr中的L到M、M+1到R合并成一个新的有序序列,并将判断后的结果序列先存入到help指针指向的区域,等待完成所有合并,再将help整个区域的数据拷贝到arr对应的位置。

而存入help的规则是:

1、如果p1和p2都没有越界进行while循环:

p1和p2比较,如果p1大于p2,则将p2所指向的元素放入help中,然后将p2右移指向下一个,继续下一轮比较。

p1和p2比较,如果p1小于等于p2,则将p1所指向的元素放入help中,然后将p1右移指向下一个,继续下一轮比较。

2、如果有一方越界了,则退出循环,并判断p1和p2中哪个还有剩余的元素未排入help中,如果有则直接排入到help中。

void ExternalSort(int* arr, int L, int M, int R)
{
  int* help = (int*)malloc(sizeof(int) * (R - L + 1)); //辅助空间,用于存放排序后的数据,空间大小为R-L+1。
  if (help == NULL)
  {
    perror("ExternalSort->malloc");
    return;
  }
  int helpSz = R - L + 1;
  int i = 0;
  int p1 = L;
  int p2 = M + 1;
  while (p1 <= M && p2 <= R)
  {
        //判断p1是否小于等于p2,如果是则将p1指向的值放入help数组中然后两指针前进一位,反之p2亦然
    help[i++] = arr[p1] <= arr[p2] ? arr[p1++] : arr[p2++];
  }
  while (p1 <= M)   //如果p1还没越界,则将剩余的元素全部拷贝到help之后
  {
    help[i++] = arr[p1++];
  }
  while (p2 <= R)   //如果p2还没越界,则将剩余的元素全部拷贝到help之后
  {
    help[i++] = arr[p2++];
  }
  for ( i = 0; i < helpSz; i++)
  {
    arr[L + i] = help[i];    //将合并完成的数据拷贝回原数组arr的对应位置
  }
  free(help);
  help = NULL;
}

到这里,归并排序的代码实现部分就结束了,总的来说因为使用的是递归,代码量是不多的,但是最难的是理解归并排序的思路, 需要好好体会归并排序的操作步骤和思路。

3、master公式

那么完成了归并排序之后,我想知道这个排序的时间复杂度是多少的话,我该怎么算?有人说当然是直接百度搜索一下就知道了。我想说的是这样确实是没问题,但是秉持着“授人以鱼不如授人以渔”的理念,我想带大家深入了解并让大家学会自己去计算递归的时间复杂度

而用来计算的公式就是使用master公式:在计算涉及递归的算法的时候,计算复杂度就会变得有些麻烦。master公式就是用来进行剖析递归行为和递归行为时间复杂度的估算的。

3.1、公式以及结论

  • master公式:T(N) = a*T(N/b) + O(N^d)

  • 公式解释:N表示母问题的规模。N/b表示子问题的规模,子问题规模必须相同,即都为N/b。a表示递归的次数也就是子问题在母问题中被调用了多少次。O(N^d)表示除了递归调用操作以外其余操作的复杂度。
  • 结论(证明过于复杂,只需要记住结论即可):
  1. 当公式中的a、b、d符合d<logb a时,时间复杂度为O(N^(logb a))
  2. 当公式中的a、b、d符合d=logb a时,时间复杂度为O((N^d)*logN)
  3. 当公式中的a、b、d符合d>logb a时,时间复杂度为O(N^d)
  • 注意:master公式适用于一些特殊的递归,就是子问题规模必须等分,不管你是分成几部分,就算是划分的区域有重叠,只要区域大小一致,就都可以使用。

【举例说明】

下面是一个使用递归实现在一个数组中找最大值的代码,这里是使用二分法来快速查找最大值,子问题的划分大小是一致的,因此可以使用master公式计算时间复杂度。

  1. 首先可以看到process中自身调用了两次process,母问题中有两个子问题调用即a=2
  2. 然后由于是二分法,因此每个子问题的规模是母问题规模的一半,即N/2
  3. 接着再看其他操作,其他操作都只执行一次,即时间复杂度为O(1)
  4. 最后:该递归的master公式就是T(N) = 2 * T(N/2) + O(1)。

即a = 2, b = 2, d = 0,代入结论公式得d<logb a,时间复杂度为O(N^(logb a)) = O(N)

int process(int* arr, int L, int R)
{
  if (L == R)
    return arr[L];
  int mid = L + (R - L) / 2;
  int leftMAX = process(arr, L, mid);    //左半边
  int rightMAX = process(arr, mid + 1, R);   //右半边
  return leftMAX > rightMAX ? leftMAX : rightMAX;
}
int main()
{
  int arr[] = { 8,3,6,4,2,1,5,7 };
  int sz = sizeof(arr) / sizeof(arr[0]);
  int max = process(arr, 0, sz - 1);
  printf("%d\n", max);
  return 0;
}

3.2、适用于某些特殊的递归

上面说到过:master公式适用于一些特殊的递归,就是子问题规模必须等分,不管你是分成几部分,就算是划分的区域有重叠,只要区域大小一致,就都可以使用。

但是仍然会有些人会误解意思,下面使用图解的方式给大家解释一下。

【图解说明】

首先,等分区域是最容易理解的,就是将N等分成若干份,二分就是N/2,三分就是N/3。

子问题的规模是左侧三分之二和右侧三分之二,这样的符合master公式吗?

答案是符合的,因为这里只关注的是区域大小是否一致,而不关心区域是否重叠。

子问题规模不一样,不符合master公式。

3.3、计算归并排序的时间复杂度

学完了master公式,那么我们就来计算一下归并排序的时间复杂度吧。

void MergeSort(int* arr, int L, int R)
{
  if (L == R)  //子序列只有一个数,默认为有序
  {
    return;
  }
  int mid = L + (R - L) / 2;
  MergeSort(arr, L, mid);
  MergeSort(arr, mid + 1, R);
  ExternalSort(arr, L, mid, R);
}

假设整个过程的数据量是N的规模,两个子问题都是T(N/2),因此是2*T(N/2)。

那么现在来观察除了子问题外的其他语句:if语句是O(1)的时间复杂度,而ExternalSort函数的两个指针都只往右前进不会回退的遍历所有数据一遍,又因为数据量是N的规模,所以ExternalSort函数的时间复杂度是O(N)

即:T(N) = 2 * T(N/2) + O(N)    其中a  = 2,b = 2,d = 1

将a、b、d代入结论公式得d=logb a,时间复杂度为O((N^d)*logN) = O(N*logN)。

如果觉得作者写的不错,求给博主一个大大的点赞支持一下,你们的支持是我更新的最大动力!

如果觉得作者写的不错,求给博主一个大大的点赞支持一下,你们的支持是我更新的最大动力!

如果觉得作者写的不错,求给博主一个大大的点赞支持一下,你们的支持是我更新的最大动力!

目录
相关文章
|
30天前
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
47 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
108 4
|
7天前
|
存储 运维 监控
探索局域网电脑监控软件:Python算法与数据结构的巧妙结合
在数字化时代,局域网电脑监控软件成为企业管理和IT运维的重要工具,确保数据安全和网络稳定。本文探讨其背后的关键技术——Python中的算法与数据结构,如字典用于高效存储设备信息,以及数据收集、异常检测和聚合算法提升监控效率。通过Python代码示例,展示了如何实现基本监控功能,帮助读者理解其工作原理并激发技术兴趣。
46 20
|
1月前
|
存储 算法 搜索推荐
Python 中数据结构和算法的关系
数据结构是算法的载体,算法是对数据结构的操作和运用。它们共同构成了计算机程序的核心,对于提高程序的质量和性能具有至关重要的作用
|
1月前
|
数据采集 存储 算法
Python 中的数据结构和算法优化策略
Python中的数据结构和算法如何进行优化?
|
1月前
|
算法
数据结构之路由表查找算法(深度优先搜索和宽度优先搜索)
在网络通信中,路由表用于指导数据包的传输路径。本文介绍了两种常用的路由表查找算法——深度优先算法(DFS)和宽度优先算法(BFS)。DFS使用栈实现,适合路径问题;BFS使用队列,保证找到最短路径。两者均能有效查找路由信息,但适用场景不同,需根据具体需求选择。文中还提供了这两种算法的核心代码及测试结果,验证了算法的有效性。
107 23
|
1月前
|
算法
数据结构之蜜蜂算法
蜜蜂算法是一种受蜜蜂觅食行为启发的优化算法,通过模拟蜜蜂的群体智能来解决优化问题。本文介绍了蜜蜂算法的基本原理、数据结构设计、核心代码实现及算法优缺点。算法通过迭代更新蜜蜂位置,逐步优化适应度,最终找到问题的最优解。代码实现了单链表结构,用于管理蜜蜂节点,并通过适应度计算、节点移动等操作实现算法的核心功能。蜜蜂算法具有全局寻优能力强、参数设置简单等优点,但也存在对初始化参数敏感、计算复杂度高等缺点。
62 20
|
29天前
|
存储 算法 程序员
C 语言递归算法:以简洁代码驾驭复杂逻辑
C语言递归算法简介:通过简洁的代码实现复杂的逻辑处理,递归函数自我调用解决分层问题,高效而优雅。适用于树形结构遍历、数学计算等领域。
|
30天前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
63 1
|
1月前
|
存储 缓存 算法
通过优化算法和代码结构来提升易语言程序的执行效率
通过优化算法和代码结构来提升易语言程序的执行效率