说明
📍 程杰《大话数据结构》所有笔记收存在我的专栏《大话数据结构》
📍 笔记(文章)中,我对《大话数据结构》的知识点进行了精简与提炼,加入了自己对数据结构与算法的一些理解与小想法。
📍 由于《大话数据结构》采用的是C语言代码,为了更加方便部分小伙伴阅读,我会参照书中C语言代码同时附上Java代码。
1.基本概念
算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。
2.数据结构与算法的关系
- **程序 = 数据结构 + 算法 。**数据是程序的中心。数据结构和算法两个概念间的逻辑关系贯穿了整个程序世界,首先二者表现为不可分割的关系。没有数据间的有机关系,程序根本无法设计。
- 数据结构与算法关系:数据结构是底层,算法高层。数据结构为算法提供服务。算法围绕数据结构操作。
- 解决问题(算法)需要选择正确的数据结构。例如:算法中经常需要对数据进行增加和删除用链表数据结构效率高,数组数据结构因为增加和删除需要移动数字每个元素所有效率低。
- 数据结构特点:每种数据结构都具有自己的特点。例如:队列:先进先出。栈:先进后出。等等
- 算法的特性:算法具有五个基本特征:
输入
、输出
、有穷性
、确定性
和可行性
。 - 数据结构应用:数据结构往往同高效的检索算法、索引技术、排序算法有关
- 数据结构(逻辑数据结构)通过计算机语言来实现数据结构(存储数据结构)。例如:树型数据结构:通过计算机语言中的数组(节点)和指针(指向父节点)来实现。
- 存储结构:逻辑数据结构的实现。存储结构通过计算机语言实现。 例如:堆数据结构,堆是一棵完全二叉树,所以适宜采用顺序存储结构(顺序存储:数组),这样能够充分利用存储空间。
- 算法目的:算法是为数据结构服务。例如:数据结构通常伴随有查找算法、排序算法等
- 数据结构的优劣:一种数据结构的优劣是在实现其各种运算的算法中体现的。
3.两种算法的比较
🌿 c语言
int i, sum = 0, n = 100; for(i = 1; i <= n; i++) { sum = sum + i; } printf("%d", sum);
🌿 java语言
int sum = 0, n = 100; for (int i = 0; i <= n; i++) { sum += i; } System.out.println(sum);
这是最简单的计算机程序之一,它就是一种算法。问题在于,你的第一直觉是这样写的,但这样是不是真的很好?是不是最高效?
📝 举一个例子,据说18世纪生于德国小村庄的高斯,上小学的一天,课堂很乱,就像我们现在下面那些窃窃私语或者拿着手机不停摆弄的同学一样,老师非常生气,后果自然也很严重。于是老师在放学时,就要求每个学生都计算1+2+…-+100的结果,谁先算出来谁先回家。天才当然不会被这样的问题难倒,高斯很快就得出了答案,是5050。老师非常惊讶,因为他自己想必也是通过1+2=3,3+3=6,6+4=10,……,4950+100-5050这样算出来的,也算了很久很久。说不定为了怕错,还算了两三遍。可眼前这个少年,一个上小学的孩子,为何可以这么快地得出结果?
🌿 c语言
int sum = 0, n = 100; sum = (1 + n) * n / 2; printf()"%d", sum);
🌿 java语言
int sum = 0, n = 100; sum = (1 + n) * n / 2; System.out.println(sum);
他用的方法相当于一种求等差数列的算法,不仅仅可以用于1加到100,就是加到1千、1万、1亿(需要更改整型变量类型为长整型,否则会溢出),也就是瞬间之事。但如果用刚才的那个挨个加的程序,显然计算机要循环1千、1万、1亿次的加法运算。人脑比电脑算得快,似乎成为了现实。
4.算法定义
什么是算法呢?算法是描述解决问题的方法。算法(Algorithm)这个单词最早出现在波斯数学家阿勒·花剌子密在公元825年(相当于我们中国的唐朝时期)所写的《印度数字算术》中。
如今普遍认可的对算法的定义是:算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且条指令表示一个或多个操作。
从刚才的例子我们也看到,对于给定的问题,是可以有多种算法来解决的。但是没有通用的算法,就像问有没有可以包治百病的药。
现实世界中的问题千奇百怪,算法当然也就千变万化,没有通用的算法可以解决所有的问题。就像大学教授并不一定教得好小学生一个道理。为解决一个很小的问题,行业排名最高、最优秀的算法反而不一定适合它。
算法定义中,提到了指令,指令能被人或机器等计算装置执行。它可以是计算机指令,也可以是我们平时的语言文字。
为了解决某个或某类问题,需要把指令表示成一定的操作序列,操作序列包括一组操作,每一个操作都完成特定的功能,这就是算法了。
5.算法的特性
算法具有五个基本特性:输入
、输出
、有穷性
、确定性
和可行性
。
5.1 输入输出
算法具有零个或多个输入。尽管对于绝大多数算法来说,输入参数都是必要的,但对于个别情况,如打印“hello world !”这样的代码,不需要任何输入参数,因此算法的输入可以是零个。算法至少有一个或多个输出,算法是一定需要输出的,不需要输出,你用这个算法干吗?输出的形式可以是打印输出,也可以是返回一个或多个值等。
5.2有穷性
**有穷性:指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成。**现实中经常会写出死循环的代码,这就是不满足有穷性。当然这里有穷的概念并不是纯数学意义的,而是在实际应用当中合理的、可以接受的“有边界”。你说你写–个算法,计算机需要算上个二十年,一定会结束,它在数学意义上是有穷了,可是媳妇都熬成婆了,算法的意义也就不大了。
5.3 确定性
**确定性:算法的每一步骤都具有确定的含义,不会出现二义性。**算法在一定条件下,只有一条执行路径,相同的输入只能有唯一的输出结果。算法的每个步骤被精确定义而无歧义。
5.4可行性
**可行性:算法的每一步都必须是可行的,也就是说,每一步都能够通过执行有限次数完成。**可行性意味着算法可以转换为程序上机运行,并得到正确的结果。尽管在目前计算机界也存在那种没有实现的极为复杂的算法,不是说理论上不能实现,而是因为过于复杂,我们当前的编程方法、工具和大脑限制了这个工作。不过这都是理论研究领域的问题,不属于我们现在要考虑的范围。
6.算法设计的要求
6.1 正确性
正确性:算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性,能正确反映问题的需求,能够得到问题的正确答案。
但是算法的“正确”通常在用法上有很大的差别,大体分为以下四个层次。
- 算法程序没有
语法
错误。 - 算法程序对于
合法的输入数据
能够产生满足要求的输出结果。 - 算法程序对于
非法的输入数据
能够得出满足规格说明的结果。 - 算法程序对于精心选择的,甚至刁难的测试数据都有满足要求的输出结果。
对于这四层含义,层次(1)要求最低,但是仅仅没有语法错误实在谈不上是好算法。这就如同仅仅解决温饱,不能算是生活幸福一样。而层次(4)是最困难的,我们几乎不可能逐一验证所有的输入都得到正确的结果。
因此算法的正确性在大部分情况下都不可能用程序来证明,而是用数学方法证明的。证明一个复杂算法在所有层次上都是正确的,代价非常高昂。所以一般情况下,我们把层次(3)作为一个算法是否正确的标准。
6.2 可读性
可读性:算法设计的另一目的是为了便于阅读、理解和交流。
可读性高有助于人们理解算法,晦涩难懂的算法往往隐含错误,不易被发现,并且难于调试和修改。
有过一个网友写的代码,他号称这程序是“用史上最少代码实现俄罗斯方块”。由于他追求的是“最少代码”这样的极致,使得他的代码真的不好理解。也许除了计算机和他自己,绝大多数人是看不懂他的代码的。
我们写代码的目的,一方面是为了让计算机执行,但还有一个重要的目的是为了便于他人阅读,让人理解和交流,自己将来也可能阅读,如果可读性不好,时间长了自己都不知道写了些什么。可读性是算法(也包括实现它的代码)好坏很重要的标志。
6.3 健壮性
一个好的算法还应该能对输入数据不合法的情况做适当的处理。比如输入的时间或者距离不应该是负数等。
健壮性:当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名其妙的结果。
6.4 时间效率高和存储量低
最后,好的算法还应该具备时间效率高
和存储量低
的特点。
时间效率指的是算法的执行时间。对于同一个问题,如果有多个算法能够解决,执行时间短的算法效率高,执行时间长的效率低。存储量需求指的是算法在执行过程中需要的最大存储空间,主要指算法程序运行时所占用的内存或外部硬盘存储空间。设计算法应该尽量满足时间效率高和存储量低的需求。在生活中,人们都希望花最少的钱,用最短的时间,办最大的事,算法也是一样的思想,能用最少的存储空间,花最少的时间,办成同样的事就是好的算法。求100个人的高考成绩平均分,与求全省的所有考生的成绩平均分在占用时间和内存存储上是有非常大的差异的,我们自然是追求可以高效率和低存储量的算法来解决问题。
综上,好的算法,应该具有正确性
、可读性
、健壮性
、高效率
和低存储量的特征。
7.算法效率的度量方法
刚才我们提到设计算法要提高效率。这里效率大都指算法的执行时间。那么我们如何度量一个算法的执行时间呢?
正所谓“是骡子是马,拉出来遛遛”。比较容易想到的方法就是,我们通过对算法的数据测试,利用计算机的计时功能,来计算不同算法的效率是高还是低。
7.1 事后统计方法
事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。
但这种方法显然是有很大缺陷的:
- 必须依据算法事先编制好程序,这通常需要花费大量的时间和精力。如果编制出来发现它根本就是很糟糕的算法,不是竹篮打水一场空吗?
- 时间的比较依赖
计算机硬件
和软件
等环境因素,有时会掩盖算法本身的优劣。要知道,现在的一台四核处理器的计算机,跟当年286、386、486等老爷爷辈的机器相比,在处理算法的运算速度上,是不能相提并论的;而所用的操作系统
、编译器
、运行框架
等软件的不同,也可以影响它们的结果;就算是同一台机器,CPU使用率
和内存占用情况
不一样,也会造成细微的差异。 - 算法的测试数据设计困难,并且程序的运行时间往往还与测试数据的规模有很大关系,效率高的算法在小的测试数据面前往往得不到体现。比如10个数字的排序,不管用什么算法,差异几乎是零。而如果有一百万个随机数字排序,那不同算法的差异就非常大了,而随机的散乱程度有好有坏,会使得算法比较变得不够客观。那么我们为了比较算法,到底用多少数据来测试?测试多少次才算可以?这是很难判断的问题。
因此,基于事后统计方法有这样那样的缺陷,我们考虑不予采纳。
7.2 事前分析估算方法
为了对算法的评判更科学,采用一种叫做事前分析估算的方法。
事前分析估算方法:在计算机程序编制前,依据统计方法对算法进行估算。
一个用高级程序语言编写的程序在计算机上运行时所消耗的时间取决于下列因素:
第(1)条当然是算法好坏
的根本,第(2)条要由软件
来支持,第(4)条要看硬件性能
。
也就是说,抛开这些与计算机硬件、软件有关的因素,一个程序的运行时间,依赖于算法的好坏和问题的输入规模。所谓问题输入规模是指输入量的多少。
📝 两种求和的算法:
- 第一种算法:
🌿 c语言
int i, sum = 0, n = 100; /* 执行1次 */ for(i = 1; i <= n; i++) /* 执行了n+1次 */ { sum = sum + i; /* 执行n次 */ } printf("%d", sum); /* 执行1次 */
- 🌿 java语言
int sum = 0, n = 100; //执行 1 次 for (int i = 0; i <= n; i++) { //执行 n+1 次 sum += i; //执行 1 次 } System.out.println(sum); //执行 1 次
- 第二种算法:
🌿 c语言
int sum = 0,n = 100; /* 执行一次 */ sum = (1 + n) * n / 2; /* 执行一次 */ printf("%d", sum); /* 执行一次 */
- 🌿 java语言
int sum = 0, n = 100; //执行 1 次 sum = (1 + n) * n / 2; //执行 1 次 System.out.println(sum); //执行 1 次
显然,第一种算法,执行了1+(n+1)+n+1次=2n+3
次;而第二种算法,是1+1+1=3
次。
事实上两个算法的第一条和最后一条语句是一样的,所以我们关注的代码其实是中间的那部分,我们把循环看作一个整体,忽略头尾循环判断的开销,那么这两个算法其实就是n次与1次的差距。算法好坏显而易见。
📝 延伸一下上面这个例子:
🌿 c语言
int i, j, x = 0, sum = 0, n = 100; /* 执行一次 */ for(i = 1; i <= n; i++) { for (j = 1; j <= n; j++) { x++; /* 执行n×n次 */ sum = sum + x; } } printf("%d", sum); /* 执行一次 */
🌿 java语言
int i, j, x = 0, sum = 0, n = 100; /* 执行一次 */ for (i = 1; i <= n; i++) { for (j = 1; j <= n; j++) { x++; /* 执行n×n次 */ sum = sum + x; } } System.out.println(sum); /* 执行一次 */
在这个例子中,i从1到100,每次都要让j循环100次,而当中的x++和sum = sum+ x;其实就是1+2+3+…+10000,也就是100次,所以这个算法当中,循环部分的代码整体需要执行n(忽略循环体头尾的开销)次。显然这个算法的执行次数对于同样的输入规模n =100,要多于前面两种算法,这个算法的执行时间随着n的增加也将远远多于前面两个。
此时你会看到,测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数。运行时间与这个计数成正比。
我们不关心编写程序所用的程序设计语言是什么,也不关心这些程序将跑在什么样的计算机中,我们只关心它所实现的算法。这样,不计那些循环索引的递增和循环终止条件、变量声明、打印结果等操作,最终,在分析程序的运行时间时,最重要的是把程序看成是独立于程序设计语言的算法或一系列步骤。
可以从问题描述中得到启示,同样问题的输入规模是n,求和算法的第一种,求1+2+…+n需要一段代码运行n次。那么这个问题的输入规模使得操作数量f(n)=n,显然运行100次的同一段代码规模是运算10次的10倍。而第二种,无论n为多少,运行次数都为1,即f(n)=1;第三种,运算100次是运算10次的100倍,因为它是f(n)=n 2 n^2n2。
我们在分析一个算法的运行时间时,重要的是把基本操作的数量与输入规模关联起来,即基本操作的数量必须表示成输入规模的函数(如下图所示)。