数据结构与算法关系(中):如何评判一个算法的好坏

简介: 大家好,我是MicroStone,一个曾在三家世界500强企业担任要职的一线互联网工程师。上一节,我们了解到算法的一些特征,想必大家都掌握了算法设计要求,在学习或工作中根据业务需求设计要设计一个算法,我们要如何评估一个算法的好坏呐?下面我们来看看算法的度量方式。

大家好,我是MicroStone,一个曾在三家世界500强企业担任要职的一线互联网工程师。上一节,我们了解到算法的一些特征,想必大家都掌握了算法设计要求,在学习或工作中根据业务需求设计要设计一个算法,我们要如何评估一个算法的好坏呐?下面我们来看看算法的度量方式。

1、算法的效率度量方法

我们知道一个算法的效率,抛开性能这些,其实值得注意的就是算法的执行时间,同一台机器上,我们使用相同的数据集,利用计算机的计时功能,通过对比执行时间,来看看不同算法的效率是高还是低。一般情况下,我们通过执行前,通过数学方式分析算法复杂度及执行后对比算法耗时来判断算法的效率。

1.1 执行后统计方法

这种方法主要是通过事先设计好的测试程序及相关数据集,利用计时器对不同的算法执行时间进行比较,从而判断算法效率的高低。

这种方法是执行前无法判断算法的情况下,进行判断的,它存在以下三个方面的缺陷:

  • 前期代码编写成本高:辛辛苦苦写好了代码,执行完后发现达不到预期的效果,那得重新编写代码,辛苦重来一遍。
  • 过于依赖软硬件环境:要公平公正评估两个算法的优劣,就需要在同样的软硬件环境下进行,我们知道即使在同一机器上,CPU使用率和内存占用情况也有会细微的差异,这样会过于依赖计算机的硬件和软件的环境,会掩盖算法本身的优劣。
  • 收集测试数据集困难:对于一个复杂的算法,要验证其完整性,相对是比较困难的。我们要比较一个算法,到底需要用多少数据集来测试,这是一件很难判断的问题。

1.2 执行前估算

计算机与数学是紧密关联的,一个好的算法都是有数学依据的,那么我们在计算机编程前,可以依据统计学的方法对算法进行估算,我们通过经验分析,一个程序在计算机运行时所消耗的时间取决于下面四个原素:

  • 算法采用的策略or方法:这个是评估算法好坏的根本
  • 编译产生的代码质量:代码的质量部分原因是由软件环境和编程语言决定的
  • 机器执行指令的速度:这个需要看硬件的性能, 一个算法在不同的硬件环境下,运行的速度不一样,这是必然的
  • 问题的输入规模:一个程序的运行时间,很大程度依赖于算法的好坏和问题的输入规模,所谓的问题输入规模是指输入量的多少(算法的复杂度)。我们来看看下面的例子:

有一天数学课上,小明的老师出了一道数学题:求从1加到100的整数和。

学渣的方法

int i = 0, sum = 0 ,n = 100;  //执行1次
for (i = 1; i <= n; i++){     //执行n+1次
    sum = sum + i;            //执行n次
}
System.out.print(sum);        //执行1次

一般同学们的想法就是逐个加起来的,很老实地从1加到100,一节课的时间都加不完,很容易让人疲惫,而且不一步加错或忘记了,就前功尽弃。最终编码需要执行2n+3次,耗时耗力。

学霸的方法

int sum = 0 ,n = 100;  //执行1次
sum = (1 + n) * n / 2; //执行1次
System.out.print(sum); //执行1次

咱们的高斯学霸很聪明,他发现了一个规律,1+100=101,2+99=101...以此类推,推断出1到100以内,头尾结合,两两个结合,一共有50个101,所以得到100内的总和是5050,这个很简单很方便,最终编码也只需要执行三次不到

我们对比一下两个算法,显然我们发现第二种简单的多了,如果算法的第一条及最后一条,以及循环的第一条及最后一条,我们单单对比最核心的两句sum = sum + i与sum = ( + n) * n / 2`,这两句代码,其实我们发现两个算法其实就是执行n次及1次的差距,这样我们就很容易看得出两个算法的好坏了。

从上述的例子,我们了解到如果输入的数越大,执行次数的差异越大,在输入规模很小的时候,我们很难判断一个算法的好坏,我们下面的列表

从这个表格上,我们很难判断2n+3与3n+1哪个更优。这个两个差异是渐进增长的,也就是说:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n > N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐近快于g(n)。

从上面我们看出,随着n的增大,后面无论是+3还是+1其实影响不大,所以可以忽略这些加法的常数,我们来看看第二个例子,算法C是4n+8,算法D是2n^{2}+ 1。

如上n≤3时,算法C要差于算法D,但n>3后,算法C优于算法D了,后面n越大,C的算法越好。如果把两个的常数去掉,这结论其实没多大变化。也就是说,与最高次项相乘的常数并不重要。

我们来看最后一个例子。算法G是2n^{2},算法H是3n + 1,算法I是2n^{2}+ 3n + 1

这三个算法应该很清楚。n的值越大,3n+1已经没法和2n^{2}的结果相比较,最终可以忽略不计。也就是说,随n值非常大以后,算法G其实已经很趋近于算法I。我们可以得到一个结论,判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项)的阶数

判断一个算法的好坏,如果只是通过少量的数据来判断,是很难做出准确的结论,我们可以通过对比几个算法的关键执行次数函数的渐进增长性,可以初步判断算法的优劣性:某个算法,随着n的增大,它会越来越优于另一算法,或者越来越差于另一算法

前面我们看到有些算法的执行次数会加上一些常数,

真正判断一个算法的优劣性,我们可以通过算法的复杂度来估算,这是我们接下来要讨论的课题,请关注下一节:数据结构:算法的复杂度

目录
相关文章
|
2月前
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
49 1
|
3月前
|
存储 人工智能 算法
数据结构与算法细节篇之最短路径问题:Dijkstra和Floyd算法详细描述,java语言实现。
这篇文章详细介绍了Dijkstra和Floyd算法,这两种算法分别用于解决单源和多源最短路径问题,并且提供了Java语言的实现代码。
101 3
数据结构与算法细节篇之最短路径问题:Dijkstra和Floyd算法详细描述,java语言实现。
|
2月前
|
存储 算法 搜索推荐
Python 中数据结构和算法的关系
数据结构是算法的载体,算法是对数据结构的操作和运用。它们共同构成了计算机程序的核心,对于提高程序的质量和性能具有至关重要的作用
|
2月前
|
数据采集 存储 算法
Python 中的数据结构和算法优化策略
Python中的数据结构和算法如何进行优化?
|
2月前
|
算法
数据结构之路由表查找算法(深度优先搜索和宽度优先搜索)
在网络通信中,路由表用于指导数据包的传输路径。本文介绍了两种常用的路由表查找算法——深度优先算法(DFS)和宽度优先算法(BFS)。DFS使用栈实现,适合路径问题;BFS使用队列,保证找到最短路径。两者均能有效查找路由信息,但适用场景不同,需根据具体需求选择。文中还提供了这两种算法的核心代码及测试结果,验证了算法的有效性。
112 23
|
2月前
|
算法
数据结构之蜜蜂算法
蜜蜂算法是一种受蜜蜂觅食行为启发的优化算法,通过模拟蜜蜂的群体智能来解决优化问题。本文介绍了蜜蜂算法的基本原理、数据结构设计、核心代码实现及算法优缺点。算法通过迭代更新蜜蜂位置,逐步优化适应度,最终找到问题的最优解。代码实现了单链表结构,用于管理蜜蜂节点,并通过适应度计算、节点移动等操作实现算法的核心功能。蜜蜂算法具有全局寻优能力强、参数设置简单等优点,但也存在对初始化参数敏感、计算复杂度高等缺点。
62 20
|
2月前
|
机器学习/深度学习 算法 C++
数据结构之鲸鱼算法
鲸鱼算法(Whale Optimization Algorithm,WOA)是由伊朗研究员Seyedali Mirjalili于2016年提出的一种基于群体智能的全局优化算法,灵感源自鲸鱼捕食时的群体协作行为。该算法通过模拟鲸鱼的围捕猎物和喷出气泡网的行为,结合全局搜索和局部搜索策略,有效解决了复杂问题的优化需求。其应用广泛,涵盖函数优化、机器学习、图像处理等领域。鲸鱼算法以其简单直观的特点,成为初学者友好型的优化工具,但同时也存在参数敏感、可能陷入局部最优等问题。提供的C++代码示例展示了算法的基本实现和运行过程。
58 0
|
3月前
|
机器学习/深度学习 存储 缓存
数据结构与算法学习十:排序算法介绍、时间频度、时间复杂度、常用时间复杂度介绍
文章主要介绍了排序算法的分类、时间复杂度的概念和计算方法,以及常见的时间复杂度级别,并简单提及了空间复杂度。
50 1
数据结构与算法学习十:排序算法介绍、时间频度、时间复杂度、常用时间复杂度介绍
|
2月前
|
算法 vr&ar 计算机视觉
数据结构之洪水填充算法(DFS)
洪水填充算法是一种基于深度优先搜索(DFS)的图像处理技术,主要用于区域填充和图像分割。通过递归或栈的方式探索图像中的连通区域并进行颜色替换。本文介绍了算法的基本原理、数据结构设计(如链表和栈)、核心代码实现及应用实例,展示了算法在图像编辑等领域的高效性和灵活性。同时,文中也讨论了算法的优缺点,如实现简单但可能存在堆栈溢出的风险等。
59 0
|
3月前
|
存储 算法 Java
Set接口及其主要实现类(如HashSet、TreeSet)如何通过特定数据结构和算法确保元素唯一性
Java Set因其“无重复”特性在集合框架中独树一帜。本文解析了Set接口及其主要实现类(如HashSet、TreeSet)如何通过特定数据结构和算法确保元素唯一性,并提供了最佳实践建议,包括选择合适的Set实现类和正确实现自定义对象的hashCode()与equals()方法。
55 4