【Python排序算法系列】—— 希尔排序

简介: 【Python排序算法系列】—— 希尔排序



希尔排序 (ShellSort)

由来和特点

希尔排序是一种高效的排序算法,由美国计算机科学家Donald Shell于1959年提出。希尔排序基于插入排序算法,通过比较相距一定间隔的元素来把元素移动到最终位置,从而实现排序。

希尔排序的基本思想是将待排序的数组按照一定的间隔分成若干个子序列,对子序列进行插入排序,然后缩小间隔,重复进行插入排序,直到间隔为1,最后通过插入排序将整个序列排序完成。

希尔排序的特点:

1. 缩小增量希尔排序的一大特点是将数组分成若干个子序列进行排序,通过缩小增量的方式减少了插入排序的次数。增量的选择有多种方法常用的是二分法,即每次将增量除以2,直到增量变为1为止。

2. 分组插入排序希尔排序将数组按照一定的间隔分成若干个子序列,对每个子序列进行插入排序。由于子序列的长度较短,插入排序的时间复杂度较低,从而提高了排序的效率。

3. 大幅度减少逆序对由于希尔排序是通过间隔分组进行插入排序的,每次排序都会将相距较远的元素进行比较和交换,从而大幅度减少了逆序对的数量。逆序对的数量是衡量一个排序算法效率的指标,逆序对越少,排序效率越高。

4. 非稳定性希尔排序是一种非稳定的排序算法。在排序过程中,相同大小的元素可能会发生交换,导致原来相对顺序的改变。

总结起来,希尔排序是一种高效的排序算法,通过缩小增量和分组插入排序的方式,大幅度减少了逆序对的数量,从而提高了排序效率。虽然希尔排序存在一定的非稳定性,但在实际应用中并不影响排序结果的正确性。希尔排序在大多数情况下都能够比较好地工作,并且适用于各种规模的数据集。

理解

希尔排序是插入排序的优化,他把整个列表按照定义的gap(为步长【也叫增量】)切割【隔着gap切割而非连续切割】成多个子列表,然后对子列表进行排序,排完序以后的整个列表,若还是存在无序,我们可以将增量递减,继续进行插入排序,直到增量为1,当增量为1的时候整个列表直接进行插入排序,此时,已经在前面排好的基础上进一步进行插排,因此希尔排序在最后进行插排的时候比整个无序表进行插排的速度快很多。

子列表的个数 = 步长

过程演示

Step1:

希尔排序第一步:这里我们选择二分法, 按照步长 gap = len (alist) / /  2 进行列表的切割。

原来的无序表的长度是9,所以它的步长gap = 9 / / 2 = 4,如上图切割成4个子列表。

【注意】:实际上他不会像图上一样分开成四个,而是按照原来的进行切分,只是为了更好的理解,我们才分开画的。


Step2:

第二轮,继续按照步长 gap = len (alist) / /  2 进行列表的切割。

原来的无序表个数是4,所以它的步长gap = 4 / / 2 = 2,如下图切割成2个子列表。


Step3:

第三轮,继续按照步长 gap = len (alist) / /  2 进行列表的切割。

原来的无序表的个数是2,所以它的步长gap = 2 / / 2 = 1,如下图切割成1个子列表。


实现代码:

#切割列表,然后利用for循环进行插排
def shell_sort(alist):
    sublistcount = len(alist) // 2 #切割子列表的步长
    while sublistcount > 0:  #只要还可以切割
        # 通过循环遍历每个字列表
        for i in range(sublistcount):
            insert_sort(alist, i , sublistcount) #对每一个子列表进行插排
        sublistcount = sublistcount // 2 #改变步长的长度
    return alist
# 定义插排的函数
def insert_sort(alist, start, gap):
    for i in range(start +gap, len(alist), gap):
        currentvalue = alist[i] #记录当前循环列表里的值
        position = i #记录当前位置
        while position >= gap and alist[position - gap] > currentvalue:
            alist[position] = alist[position - gap] #整体后移
            position = position - gap # 记录当前位置
        alist[position] = currentvalue#当前位置等于要插入的那个位置
li = [54,26,93,17,77,31,44,55,20]
print(shell_sort(li))

Self Check

我的解题思路:

根据希尔排序的特点,根据gap先进行分组然后进行跳跃切割。

题目中的gap = 3,所以我们首先可以知道要分三组:

他们的下标和对应的分组元素如下图所示

然后每组按照插入排序的方法进行排序

最后排完的结果是: 5 , 3, 8 , 7 , 16, 19 , 9 , 17, 20, 12。


📝总结:

粗看上去,谢尔排序以插入排序为基础可能并不会比插入排序好,但由于每趟都使得列表更加接近有序,这个过程会减少很多原先需要的“无效”比对

对谢尔排序的详尽分析比较复杂,大致说是介于0(n)和0(n²)之间

如果将间隔保持在2^(k) - 1(1、3、5、7、15、31等等),谢尔排序的时间复杂度约为0 ( n^(3/2))

 

目录
相关文章
|
2天前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。
|
2天前
|
机器学习/深度学习 数据可视化 算法
【Python机器学习专栏】t-SNE算法在数据可视化中的应用
【4月更文挑战第30天】t-SNE算法是用于高维数据可视化的非线性降维技术,通过最小化Kullback-Leibler散度在低维空间保持数据点间关系。其特点包括:高维到二维/三维映射、保留局部结构、无需预定义簇数量,但计算成本高。Python中可使用`scikit-learn`的`TSNE`类实现,结合`matplotlib`进行可视化。尽管计算昂贵,t-SNE在揭示复杂数据集结构上极具价值。
|
2天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】关联规则学习:Apriori算法详解
【4月更文挑战第30天】Apriori算法是一种用于关联规则学习的经典算法,尤其适用于购物篮分析,以发现商品间的购买关联。该算法基于支持度和置信度指标,通过迭代生成频繁项集并提取满足阈值的规则。Python中可借助mlxtend库实现Apriori,例如处理购物篮数据,设置支持度和置信度阈值,找出相关规则。
|
2天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】层次聚类算法的原理与应用
【4月更文挑战第30天】层次聚类是数据挖掘中的聚类技术,无需预设簇数量,能生成数据的层次结构。分为凝聚(自下而上)和分裂(自上而下)两类,常用凝聚层次聚类有最短/最长距离、群集平均和Ward方法。优点是自动确定簇数、提供层次结构,适合小到中型数据集;缺点是计算成本高、过程不可逆且对异常值敏感。在Python中可使用`scipy.cluster.hierarchy`进行实现。尽管有局限,层次聚类仍是各领域强大的分析工具。
|
2天前
|
机器学习/深度学习 算法 数据挖掘
【Python 机器学习专栏】K-means 聚类算法在 Python 中的实现
【4月更文挑战第30天】K-means 是一种常见的聚类算法,用于将数据集划分为 K 个簇。其基本流程包括初始化簇中心、分配数据点、更新簇中心并重复此过程直到收敛。在 Python 中实现 K-means 包括数据准备、定义距离函数、初始化、迭代和输出结果。虽然算法简单高效,但它需要预先设定 K 值,且对初始点选择敏感,可能陷入局部最优。广泛应用在市场分析、图像分割等场景。理解原理与实现对应用聚类分析至关重要。
|
2天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习算法的原理与应用
【4月更文挑战第30天】集成学习通过组合多个基学习器提升预测准确性,广泛应用于分类、回归等问题。主要步骤包括生成基学习器、训练和结合预测结果。算法类型有Bagging(如随机森林)、Boosting(如AdaBoost)和Stacking。Python中可使用scikit-learn实现,如示例代码展示的随机森林分类。集成学习能降低模型方差,缓解过拟合,提高预测性能。
|
2天前
|
机器学习/深度学习 算法 Python
【Python 机器学习专栏】随机森林算法的性能与调优
【4月更文挑战第30天】随机森林是一种集成学习方法,通过构建多棵决策树并投票或平均预测结果,具有高准确性、抗过拟合、处理高维数据的能力。关键性能因素包括树的数量、深度、特征选择和样本大小。调优方法包括调整树的数量、深度,选择关键特征和参数优化。Python 示例展示了使用 GridSearchCV 进行调优。随机森林广泛应用于分类、回归和特征选择问题,是机器学习中的重要工具。
|
2天前
|
机器学习/深度学习 算法 数据可视化
【Python机器学习专栏】决策树算法的实现与解释
【4月更文挑战第30天】本文探讨了决策树算法,一种流行的监督学习方法,用于分类和回归。文章阐述了决策树的基本原理,其中内部节点代表特征判断,分支表示判断结果,叶节点代表类别。信息增益等标准用于衡量特征重要性。通过Python的scikit-learn库展示了构建鸢尾花数据集分类器的示例,包括训练、预测、评估和可视化决策树。最后,讨论了模型解释和特征重要性评估在优化中的作用。
|
3天前
|
机器学习/深度学习 算法 数据挖掘
机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
|
4天前
|
机器学习/深度学习 算法 数据挖掘
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
11 0