【数据结构】算法效率的度量方法

简介: 【数据结构】算法效率的度量方法

在上篇文章中我们提到了算法的设计要求中我们要尽量满足时间效率高和存储量低的需求.这里的时间效率大都指算法的执行时间.


而算法的执行时间需通过依据该算法编制的程序在计算机上运行时所消耗的时间来度量.度量一个程序的执行时间通常有两种方法:事后统计方法事前分析估算方法.


🎏事后统计方法

这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序运行时间进行比较,从而确定算法效率的高低.


但这种方法存在一些缺陷:


  • 因为要依靠设计好的程序来测试,那么我们就必须依据算法事先编好程序,这通常需要花费大量的时间和精力,并且如果最后的测试结果表明这是个很糟糕的算法,那么之前的所有努力就都白费了.
  • 时间的比较依赖于计算机硬件和软件等环境因素,有时会掩盖算法本身的优劣.计算机的处理器,所用操作系统,编译器,运行框架等软件的不同,也可以影响它们的结果,就算是同一台机器,CPU使用率和内存占用情况不一样,也会造成细微的差异.
  • 算法的测试数据设计困难,并且程序的运行时间往往还与测试数据的规模有很大关系,效率高的算法在小的测试数据面前往往得不到体现.


基于上面的缺陷,我们常常采用另一种事前分析估算的方法:事前分析估算方法.


🎏事前分析估算方法

在计算机程序编制前,依据统计方法对算法进行估算.


一个用高级语言编写的程序在计算机上运行时所消耗的时间取决于下列因素:

  1. 依据的算法选用的策略,方法.
  2. 问题的规模,如求100以内还是1000以内的素数.
  3. 编译产生的代码质量.
  4. 书写程序的语言,对于同一个算法,实现语言的级别越高,执行效率就越低.
  5. 机器执行指令的速度.


这五个因素中,第一条是算法好坏的根本,第三条要由软件来支持,第四条要看程序员的选择,第五条要看硬件性能.这表明使用绝对的时间单位衡量算法的效率是不合适的.


抛开这些与计算机硬件,软件有关的因素,一个程序的运行时间,依赖于算法的好坏和问题的输入规模.

我们拿高斯求和算法举个例子:


从1加到100,第一种算法:

int i=0;            /*执行1次*/
int sum=0;          /*执行1次*/
int n=100;          /*执行1次*/
for(i=1;i<=n;i++)   /*执行n+1次*/
{
    sum=sum+i;      /*执行n次*/
}
printf("%d",sum);   /*执行1次*/

第二种算法:

int i=0;            /*执行1次*/
int sum=0;          /*执行1次*/
int n=100;          /*执行1次*/
sum=(1+n)*n/2;      /*执行1次*/
printf("%d",sum);   /*执行1次*/


显然,第一种算法一共执行了1+1+1+(n+1)+n+1=2n+5次.而第二种算法一共执行了1+1+1+1+1=5次.

事实上这两种算法的前三条语句和最后一条语句是一样的,所以我们只需要关注中间那部分代码即可.我们把循环看作一个整体,忽略头尾循环判断的开销,那么这两个算法其实就是n次与1次的差距.这样一比,两种算法的好坏显而易见了.


通过这个例子我们可以看出,测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数.运行时间与这个计数成正比.


我们不关心编写程序所用的程序设计语言是什么,也不关心这些程序将跑在什么样的计算机中,我们只关心它所实现的算法.


这样,不计那些循环索引的递增和循环终止条件,变量声明,打印结果等操作,最终,在分析程序的运行时间时,最重要的是把程序看成是独立于程序设计语言的算法或一系列步骤.


我们在分析一个算法的运行时间时,重要的是把基本操作的数量与输入规模关联起来,即基本操作的数量必须表示成输入规模的函数.



如上面那个例子,同样的问题输入规模是n,第一种算法需要一段代码运行n次.那么这个问题的输入规模使得操作数量是f(n)=n.而第二种,无论n为多少,运行次数都为1,即f(n)=1.


可以看到,随着n值的越来越大,它们在时间效率上的差异也就越来越大了.



🎏函数的渐进式增长

函数的渐近增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐近快于g(n).


我们来看一个例子:算法A是n^2,

算法B是2n^2,

算法C是3n+1,

算法D是2n^2+3n+1.

次数 算法A(n^2) 算法B(2n^2) 算法C(3n+1)

算法D(2n^2+3n+1)

n=1 1 2 4 6

n=2

4 8 7 15
n=5 25 50 16 66
n=10 100 200 31 231
n=100 10,000 20,000 301 20,301
n=1,000 1,000,000 2,000,000 3,001 2,003,001
n=10,000 100,000,000 200,000,000 30,001 200,030,001
n=100,000 10,000,000,000 20,000,000,000 300,001 20,000,300,001
n=1,000,000 1,000,000,000,000 2,000,000,000,000 3,000,001 200,000,3000,001

显示详细信息

通过这组表格对比我们可以发现,随着n的增大,算法中的加减常数对结果的影响几乎可以忽略不计

,而非最高次像外的其他次要项对结果的影响也几乎可以忽略,以及最高项前的系数对结果的影响也可以忽略.


因此,判断一个算法的效率时,函数中的常数项和其他次要项以及最高项的系数常常可以忽略,而更应该关注主项(最高阶项)的阶数.



结语

当我们搞清楚算法效率的两种度量方法后,在数据结构算法篇,我们还将一起学习算法的时间复杂度算法的空间复杂度相关的知识.希望这些内容能对大家有所帮助,一起学习,一起进步!



数据结构算法篇思维导图:


相关文章
|
22天前
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
33 1
|
25天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
77 4
|
23天前
|
存储 算法 搜索推荐
Python 中数据结构和算法的关系
数据结构是算法的载体,算法是对数据结构的操作和运用。它们共同构成了计算机程序的核心,对于提高程序的质量和性能具有至关重要的作用
|
22天前
|
数据采集 存储 算法
Python 中的数据结构和算法优化策略
Python中的数据结构和算法如何进行优化?
|
1月前
|
算法
数据结构之路由表查找算法(深度优先搜索和宽度优先搜索)
在网络通信中,路由表用于指导数据包的传输路径。本文介绍了两种常用的路由表查找算法——深度优先算法(DFS)和宽度优先算法(BFS)。DFS使用栈实现,适合路径问题;BFS使用队列,保证找到最短路径。两者均能有效查找路由信息,但适用场景不同,需根据具体需求选择。文中还提供了这两种算法的核心代码及测试结果,验证了算法的有效性。
96 23
|
22天前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
51 1
|
23天前
|
存储 算法 安全
SnowflakeIdGenerator-雪花算法id生成方法
SnowflakeIdGenerator-雪花算法id生成方法
20 1
|
26天前
|
JSON 算法 数据挖掘
基于图论算法有向图PageRank与无向图Louvain算法构建指令的方式方法 用于支撑qwen agent中的统计相关组件
利用图序列进行数据解读,主要包括节点序列分析、边序列分析以及结合节点和边序列的综合分析。节点序列分析涉及节点度分析(如入度、出度、度中心性)、节点属性分析(如品牌、价格等属性的分布与聚类)、节点标签分析(如不同标签的分布及标签间的关联)。边序列分析则关注边的权重分析(如关联强度)、边的类型分析(如管理、协作等关系)及路径分析(如最短路径计算)。结合节点和边序列的分析,如子图挖掘和图的动态分析,可以帮助深入理解图的结构和功能。例如,通过子图挖掘可以发现具有特定结构的子图,而图的动态分析则能揭示图随时间的变化趋势。这些分析方法结合使用,能够从多个角度全面解读图谱数据,为决策提供有力支持。
|
1月前
|
C语言
【数据结构】栈和队列(c语言实现)(附源码)
本文介绍了栈和队列两种数据结构。栈是一种只能在一端进行插入和删除操作的线性表,遵循“先进后出”原则;队列则在一端插入、另一端删除,遵循“先进先出”原则。文章详细讲解了栈和队列的结构定义、方法声明及实现,并提供了完整的代码示例。栈和队列在实际应用中非常广泛,如二叉树的层序遍历和快速排序的非递归实现等。
181 9
|
1月前
|
存储 算法
非递归实现后序遍历时,如何避免栈溢出?
后序遍历的递归实现和非递归实现各有优缺点,在实际应用中需要根据具体的问题需求、二叉树的特点以及性能和空间的限制等因素来选择合适的实现方式。
32 1
下一篇
DataWorks