C语言的学习篇已经结束,今天开启新的篇章——数据结构和算法。本期主要内容是对数据结构和算法入门知识——复杂度进行讲解。
1.算法效率
1.1 如何衡量一个算法的好坏
如何衡量一个算法的好坏呢?比如对于以下斐波那契数列:
long long Fib(int N) { if(N < 3) return 1; return Fib(N-1) + Fib(N-2); }
这个斐波那契数列的递归实现方式非常简洁,但简洁一定好吗?那该如何衡量算法好与坏呢?
答案是,一个程序中算法的复杂度,才是衡量一个程序好坏的标准。
1.2 算法的复杂度
算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源 。因此衡量一个算法的好坏,一般是从时间和空间两个维度来衡量的,即时间复杂度和空间复杂度。
时间复杂度主要衡量一个算法的运行快慢,而空间复杂度主要衡量一个算法运行所需要的额外空间。
在计算机发展的早期,计算机的存储容量很小。所以对空间复杂度很是在乎。但是经过计算机行业的迅速发展,计算机的存储容量已经达到了很高的程度。所以我们如今已经不需要再特别关注一个算法的空间复杂度。
算法的复杂度在校招中也是极为重要的考察点。
2.时间复杂度
2.1 时间复杂度的概念
时间复杂度的定义:
在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。
一个算法执行所耗费的时间,从理论上说,是不能算出来的,只有你把你的程序放在机器上跑起来,才能知道。但是我们需要每个算法都上机测试吗?是可以都上机测试,但是这很麻烦,所以才有了时间复杂度这个分析方式。一个算法所花费的时间与其中语句的执行次数成正比,算法中的基本操作的执行次数,为算法的时间复杂度。
找到某条基本语句与问题规模N之间的数学表达式,就是算出了该算法的时间复杂度。来看一下下面这段代码:
void Func1(int N) { int count = 0; for (int i = 0; i < N ; ++ i) { for (int j = 0; j < N ; ++ j) { ++count; } } for (int k = 0; k < 2 * N ; ++ k) { ++count; } int M = 10; while (M--) { ++count; } printf("%d\n", count); }
计算一下Func1的基本执行次数:
- N = 10 ,F(N) = 130
- N = 100 ,F(N) = 10210
- N = 1000, F(N) = 1002010
它们的关系式: F(N)=N*N+2*N+10,我们发现随着N的增大,2*N和10对执行次数的影响在逐渐减小。
实际中我们计算时间复杂度时,我们其实并不一定要计算精确的执行次数,而只需要大概执行次数,那么这里我们使用大O的渐进表示法。
2.2 大O的渐进表示法
大O符号:是用于描述函数渐进行为的数学符号。
推导大O阶的基本方法:
- 用常数1取代运行时间中的所有加法常数(任何常数,有确切数字且不超int最大范围都算)。
- 在修改后的运行次数函数中,只保留最高阶项。
- 如果最高阶项存在且不是1,则去除与这个项目相乘的常数。得到的结果就是大O阶(如果有常数项除去常数项)
使用大O的渐进表示法以后,Func1的时间复杂度为N平方。
- N = 10, F(N) = 100
- N = 100 ,F(N) = 10000
- N = 1000 ,F(N) = 1000000
通过上面我们会发现大O的渐进表示法去掉了那些对结果影响不大的项,简洁明了的表示出了执行次数。
另外有些算法的时间复杂度存在最好、平均和最坏情况:
- 最坏情况:任意输入规模的最大运行次数(上界)
- 平均情况:任意输入规模的期望运行次数
- 最好情况:任意输入规模的最小运行次数(下界)
例如在一个有N个数据的数组当中,查找一个数字X:
- 最好情况:1次找到
- 最坏情况:N次找到
- 平均情况:N/2次找到
在实际中一般情况关注的是算法的最坏运行情况,所以数组中搜索数据时间复杂度为O(N)
2.3常见时间复杂度计算
例1:
void Func2(int N) { int count = 0; for (int k = 0; k < 2 * N ; ++ k) { ++count; } int M = 10; while (M--) { ++count; } printf("%d\n", count); }
这个代码的时间复杂度是多少呢?
Func2基本操作执行了2N+10次,通过推导大O阶方法知道,时间复杂度为 O(N)
例2:
void Func4(int N) { int count = 0; for (int k = 0; k < 100; ++ k) { ++count; } printf("%d\n", count); }
这个程序的时间复杂度是多少呢?
Func3基本操作执行了M+N次,由于M和N都是未知,所以时间复杂度为 O(N+M)
例3:
void Func4(int N) { int count = 0; for (int k = 0; k < 100; ++ k) { ++count; } printf("%d\n", count); }
计算该程序的时间复杂度
Func4基本操作执行了100次,通过推导大O阶方法,时间复杂度为 O(1)
例4:
void BubbleSort(int* a, int n) { assert(a); for (size_t end = n; end > 0; --end) { int exchange = 0; for (size_t i = 1; i < end; ++i) { if (a[i-1] > a[i]) { Swap(&a[i-1], &a[i]); exchange = 1; } } if (exchange == 0) break; } }
我们来看一下这个冒泡排序的时间复杂度是多少?
冒泡排序是相邻两元素进行比较,再进行交换排序。并且交换的比较的次数依次减少。冒泡详细过程可参考下边博客,其中有对冒泡排序详细过程介绍。——冒泡排序详细过程
时间复杂度是算法中的基本操作的执行次数。
排序一个数最多需要比较并交换执行n-1次,第二个数需要进行n-2次,……直到排序结束,总的执行次数也就是等差数列的和。根据等差数列求和公式我们可以得出:最坏执行了(N*(N+1)/2次。通过推导大O阶方法+时间复杂度一般看最坏,所以冒泡排序的时间复杂度为 O(N^2)。
例5:
int BinarySearch(int* a, int n, int x) { assert(a); int begin = 0; int end = n-1; while (begin <= end) { int mid = begin + ((end-begin)>>1); if (a[mid] < x) begin = mid+1; else if (a[mid] > x) end = mid-1; else return mid; }
我们来看一看二分查找的时间复杂度。
二分查找详细介绍可参考文章:这就是二分查找?
二分查找每次将查找区间进行折半。
N
N/2
N/2/2
N/2/2/2
……
N/2/2……/2=1;
最坏情况:查找区间缩放只剩一个数时。
最坏情况下查找了多少次?除了多少次2,就查找了多少次。
我们假设查找了x次,2^x=N,x等于log2(N),时间复杂度是算法中的基本操作的执行次数。
操作执行最好1次,最坏O(logN)次,时间复杂度为 O(logN) ,ps:logN在算法分析中表示是底数为2,对数为N。有些地方会写成lgN。(建议通过折纸查找的方式讲解logN是怎么计算出来的) 。
例6:
long long Fac(size_t N) { if(0 == N) return 1; return Fac(N-1)*N; }
接下来我们来看看递归的时间复杂度是多少?
这个递归的时间复杂度是O(N),为什么?我们知道递归是调用自身函数,通过观察我们发现,递归函数中只执行一次,但是递归调用函数调用了N+1次,时间复杂度是算法中的基本操作的执行次数。调用了N+1次,就执行了N+1次,所以时间复杂度是O(N)。通过递归我们会找到这样的规律:递归算法的时间复杂度是多少次调用的次数累加。我们知道了这个规律,那我们再来看看这个递归 。
例7:
long long Fac(size_t N) { if(0 == N) return 1; for(size_t i=0;i<N;i++) { …… } return Fac(N-1)*N; }
这个递归的时间复杂度是多少?
答案是O(N^2),这里递归调用了N次,但每次调用都执行N次的循环,注意这里的N是逐渐变小的(每次调用传递的是N-1),所以这个递归的执行次数也就是等差数列的和,我们需要记住,执行次数为等差数列的和,时间复杂度就是O(N^2)。我们继续来看看这个递归。
例8:
long long Fib(size_t N) { if(N < 3) return 1; return Fib(N-1) + Fib(N-2); }
它的时间复杂度是多少?
它的时间复杂度是O(2^N)。递归算法的时间复杂度是多少次调用的次数累加。这个递归是双路递归,它的递归路线是成树状结构的:
执行次数符合2^N增长,但是执行到最后也并不能完全算的上是2^N,最后在右下角部分会率先递归到Fib(0),所以右下角会缺失一部分。但时间复杂度本身就是一个估算的结果,所以它的时间复杂度仍为O(2^N)
3.空间复杂度
定义:
空间复杂度是算法在运行过程中临时占用存储空间大小的量度 。
空间复杂度不是程序占用了多少bytes的空间,因为这个也没太大意义,所以空间复杂度算的是变量的个数。空间复杂度计算规则基本跟时间复杂度类似,也使用大O渐进表示法。注意:函数运行时所需要的栈空间(存储参数、局部变量、一些寄存器信息等)在编译期间已经确定好了,因此空间复杂度主要通过函数在运行时候显式申请的额外空间来确定。
例1:
void BubbleSort(int* a, int n) { assert(a); for (size_t end = n; end > 0; --end) { int exchange = 0; for (size_t i = 1; i < end; ++i) { if (a[i-1] > a[i]) { Swap(&a[i-1], &a[i]); exchange = 1; } } if (exchange == 0) break; } }
我们再来看看上述的冒泡排序,它的空间复杂度是多少?
答案是O(1),为什么?空间复杂度是算法在运行过程中临时占用存储空间大小的量度,主要通过函数在运行时候显式申请的额外空间来确定。冒泡排序在解决排序问题的过程中并没有向内存申请额外的空间。所以空间复杂度为 O(1)。
例2:
long long* Fibonacci(size_t n) { if(n==0) return NULL; long long * fibArray = (long long *)malloc((n+1) * sizeof(long long)); fibArray[0] = 0; fibArray[1] = 1; for (int i = 2; i <= n ; ++i) { fibArray[i] = fibArray[i - 1] + fibArray [i - 2]; } return fibArray; }
这个程序的空间复杂度是多少?
答案是O(N)。这个程序使用数组来实现斐波那契数列,在程序中额外申请了n+1个存储数据的空间,动态开辟了N个空间,空间复杂度为 O(N)。
例3:
long long Fac(size_t N) { if(N == 0) return 1; return Fac(N-1)*N; }
这个递归的空间复杂度是多少?
答案是O(N),递归在调用自身的同时会保留当前的栈帧,然后继续开辟新的函数栈帧,这里递归合计开辟了N个栈帧。每个栈帧开辟常数个空间,所以空间复杂度是O(N),可能还会有人问,函数栈帧不是不算吗?这里注意,空间复杂度的定义是算法在运行过程中临时占用存储空间大小的量度,主要通过函数在运行时候显式申请的额外空间来确定。只有第一个递归函数不算,其他开辟的函数栈帧都属于额外开辟的空间。
我们可以总结一下递归与普通函数的区别:普通函数只需计算当前函数中的时间和空间消耗,递归函数需要计算调用的所有函数消耗的时间和空间。
例4:
long long Fib(size_t N) { if(N < 3) return 1; return Fib(N-1) + Fib(N-2); }
为了大家能够更深刻的理解,这里我们再来看看上述的这个双路递归,它的空间复杂度是多少?
答案是O(N),为什么呢?注意这里计算的是空间复杂度,空间和时间的区别在哪?空间可以复用,而时间不可以。当一个递归率先到达Fib(0)时,就会返回上一层递归,而返回的同时也会将空间还给操作系统,这个双路递归最多会在栈区向下创建N+1个函数栈帧。所以它的空间复杂度是O(N)。总结一下:我们常见的程序,空间复杂度一般都是O(N)或者O(1),如果空间复杂度过高会造成程序消耗内存过高,程序会崩溃。
4.常见复杂度对比
一般常见的复杂度如下:
增长曲线如下:
总结
日常生活中我们会遇到很多问题需要算法解决,在选择算法时,我们需要综合考虑时间复杂度和空间复杂度,找到一个合适的平衡点,以满足问题的要求和资源的限制。通过分析算法复杂度,我们可以评估算法的效率和可行性,并选择最优的算法来解决问题。好的本期内容到此结束。最后,感谢阅读!