大家好,我是MicroStone,一个曾在三家世界500强企业担任要职的一线互联网工程师。上一节,我们了解到算法的一些特征,想必大家都掌握了算法设计要求,在学习或工作中根据业务需求设计要设计一个算法,我们要如何评估一个算法的好坏呐?下面我们来看看算法的度量方式。
1、算法的效率度量方法
我们知道一个算法的效率,抛开性能这些,其实值得注意的就是算法的执行时间,同一台机器上,我们使用相同的数据集,利用计算机的计时功能,通过对比执行时间,来看看不同算法的效率是高还是低。一般情况下,我们通过执行前,通过数学方式分析算法复杂度及执行后对比算法耗时来判断算法的效率。
1.1 执行后统计方法
这种方法主要是通过事先设计好的测试程序及相关数据集,利用计时器对不同的算法执行时间进行比较,从而判断算法效率的高低。
这种方法是执行前无法判断算法的情况下,进行判断的,它存在以下三个方面的缺陷:
- 前期代码编写成本高:辛辛苦苦写好了代码,执行完后发现达不到预期的效果,那得重新编写代码,辛苦重来一遍。
- 过于依赖软硬件环境:要公平公正评估两个算法的优劣,就需要在同样的软硬件环境下进行,我们知道即使在同一机器上,CPU使用率和内存占用情况也有会细微的差异,这样会过于依赖计算机的硬件和软件的环境,会掩盖算法本身的优劣。
- 收集测试数据集困难:对于一个复杂的算法,要验证其完整性,相对是比较困难的。我们要比较一个算法,到底需要用多少数据集来测试,这是一件很难判断的问题。
1.2 执行前估算
计算机与数学是紧密关联的,一个好的算法都是有数学依据的,那么我们在计算机编程前,可以依据统计学的方法对算法进行估算,我们通过经验分析,一个程序在计算机运行时所消耗的时间取决于下面四个原素:
- 算法采用的策略or方法:这个是评估算法好坏的根本
- 编译产生的代码质量:代码的质量部分原因是由软件环境和编程语言决定的
- 机器执行指令的速度:这个需要看硬件的性能, 一个算法在不同的硬件环境下,运行的速度不一样,这是必然的
- 问题的输入规模:一个程序的运行时间,很大程度依赖于算法的好坏和问题的输入规模,所谓的问题输入规模是指输入量的多少(算法的复杂度)。我们来看看下面的例子:
有一天数学课上,小明的老师出了一道数学题:求从1加到100的整数和。
学渣的方法
int i = 0, sum = 0 ,n = 100; //执行1次 for (i = 1; i <= n; i++){ //执行n+1次 sum = sum + i; //执行n次 } System.out.print(sum); //执行1次
一般同学们的想法就是逐个加起来的,很老实地从1加到100,一节课的时间都加不完,很容易让人疲惫,而且不一步加错或忘记了,就前功尽弃。最终编码需要执行2n+3次,耗时耗力。
学霸的方法
int sum = 0 ,n = 100; //执行1次 sum = (1 + n) * n / 2; //执行1次 System.out.print(sum); //执行1次
咱们的高斯学霸很聪明,他发现了一个规律,1+100=101,2+99=101...以此类推,推断出1到100以内,头尾结合,两两个结合,一共有50个101,所以得到100内的总和是5050,这个很简单很方便,最终编码也只需要执行三次不到
我们对比一下两个算法,显然我们发现第二种简单的多了,如果算法的第一条及最后一条,以及循环的第一条及最后一条,我们单单对比最核心的两句sum = sum + i与sum = ( + n) * n / 2`,这两句代码,其实我们发现两个算法其实就是执行n次及1次的差距,这样我们就很容易看得出两个算法的好坏了。
从上述的例子,我们了解到如果输入的数越大,执行次数的差异越大,在输入规模很小的时候,我们很难判断一个算法的好坏,我们下面的列表
从这个表格上,我们很难判断2n+3与3n+1哪个更优。这个两个差异是渐进增长的,也就是说:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n > N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐近快于g(n)。
从上面我们看出,随着n的增大,后面无论是+3还是+1其实影响不大,所以可以忽略这些加法的常数,我们来看看第二个例子,算法C是4n+8,算法D是2n^{2}+ 1。
如上n≤3时,算法C要差于算法D,但n>3后,算法C优于算法D了,后面n越大,C的算法越好。如果把两个的常数去掉,这结论其实没多大变化。也就是说,与最高次项相乘的常数并不重要。
我们来看最后一个例子。算法G是2n^{2},算法H是3n + 1,算法I是2n^{2}+ 3n + 1
这三个算法应该很清楚。n的值越大,3n+1已经没法和2n^{2}的结果相比较,最终可以忽略不计。也就是说,随n值非常大以后,算法G其实已经很趋近于算法I。我们可以得到一个结论,判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项)的阶数。
判断一个算法的好坏,如果只是通过少量的数据来判断,是很难做出准确的结论,我们可以通过对比几个算法的关键执行次数函数的渐进增长性,可以初步判断算法的优劣性:某个算法,随着n的增大,它会越来越优于另一算法,或者越来越差于另一算法。
前面我们看到有些算法的执行次数会加上一些常数,
真正判断一个算法的优劣性,我们可以通过算法的复杂度来估算,这是我们接下来要讨论的课题,请关注下一节:数据结构:算法的复杂度