在Python中使用K-Means聚类和PCA主成分分析进行图像压缩(二)

简介: 在Python中使用K-Means聚类和PCA主成分分析进行图像压缩(二)

重复试验

在本节中,我们将在𝑘= 2到𝑘= 20之间重复此步骤:

  1. 执行k-means以获取每个像素的聚类中心和聚类标签
  2. 将每个像素替换为其聚类中心。
  3. 保存指标值以进行进一步优化:WCSS,BCSS,解释方差和图像大小
  4. 用越来越多的颜色绘制压缩图像
range_k_clusters = (2, 21)
kmeans_result = []
for k in range(*range_k_clusters):
     # CLUSTERING
     kmeans = KMeans(n_clusters = k,
                     n_jobs = -1,
                     random_state = 123).fit(X)
     # REPLACE PIXELS WITH ITS CENTROID
     new_pixels = replaceWithCentroid(kmeans)
     # EVALUATE
     WCSS = kmeans.inertia_
     BCSS = calculateBCSS(X, kmeans)
     exp_var = 100*BCSS/(WCSS + BCSS)
     metric = {
         "No. of Colors": k,
         "Centroids": list(map(get_colour_name, np.uint8(kmeans.cluster_centers_))),
         "Pixels": new_pixels,
         "WCSS": WCSS,
         "BCSS": BCSS,
         "Explained Variance": exp_var,
         "Image Size (KB)": imageByteSize(new_pixels)
    }
     kmeans_result.append(metric)
kmeans_result = pd.DataFrame(kmeans_result).set_index("No. of Colors")
kmeans_result

image.png

聚类指标:最佳的颜色种类数

在本节中,我们将尝试搜索最佳的颜色数(聚类中心)k,以便在保持较高的解释方差百分比的同时将内存大小减小到尽可能小。

image.png

如何确定最佳颜色数k?以下是算法:

  1. 用直线连接曲线的第一个和最后一个点
  2. 计算每个点到该线的垂直距离
  3. 将距离最长的点视为拐点

image.png

下一个问题,如何在步骤2中计算垂直距离?很简单,我们可以使用从点(x0,y0)到线ax + by + c = 0的距离公式,如下所示:

image.png

def locateOptimalElbow(x, y):
     # START AND FINAL POINTS
     p1 = (x[0], y[0])
     p2 = (x[-1], y[-1])
     # EQUATION OF LINE: y = mx + c
     m = (p2[1] - p1[1]) / (p2[0] - p1[0])
     c = (p2[1] - (m * p2[0]))
     # DISTANCE FROM EACH POINTS TO LINE mx - y + c = 0
     a, b = m, -1
     dist = np.array([abs(a*x0+b*y0+c)/math.sqrt(a**2+b**2) for x0, y0 in zip(x,y)])
     return np.argmax(dist) + x[0]

但是,如果图形不是增加或减少的曲线函数,该怎么办?我们可以使用有限差分法使用二阶导数来定位梯度中变化最剧烈的地方。

什么是有限差分法?这是一种数值方法,可以近似离散值的导数。共有三种类型:

forward差异:

image.png

backward差异:

image.png

中心差异:

image.png

其中:

f’(x)是函数f(x)的一阶导数h是步长,在这种情况下,h = 1(颜色数的步长)O(h)是一级误差项O(h²)是二次误差项

由于中心差异具有较高的度数误差项,因此预期它会比其他两个差异产生更好的结果。我们仅对第一个点使用前向差异,对最后一个点使用后向差异。

def calculateDerivative(data):
     derivative = []
     for i in range(len(data)):
         if i == 0:
             # FORWARD DIFFERENCE
             d = data[i+1] - data[i]
         elif i == len(data) - 1:
             # BACKWARD DIFFERENCE
             d = data[i] - data[i-1]
         else:
             # CENTER DIFFERENCE
             d = (data[i+1] - data[i-1])/2
         derivative.append(d)
     return np.array(derivative)
def locateDrasticChange(x, y):
     # CALCULATE GRADIENT BY FIRST DERIVATIVE
     first_derivative = calculateDerivative(np.array(y))
     # CALCULATE CHANGE OF GRADIENT BY SECOND DERIVATIVE
     second_derivative = calculateDerivative(first_derivative)
return np.argmax(np.abs(second_derivative)) + x[0]

让我们搜索每个指标的最佳k值:

optimal_k = []
for col in kmeans_result.columns[2:]:
     optimal_k_dict = {}
     optimal_k_dict["Metric"] = col
     if col == "Image Size (KB)":
         optimal_k_dict["Method"] = "Derivative"
         optimal_k_dict["Optimal k"] = locateDrasticChange(kmeans_result.index, kmeans_result[col].values)
     else:
         optimal_k_dict["Method"] = "Elbow"
         optimal_k_dict["Optimal k"] = locateOptimalElbow(kmeans_result.index, kmeans_result[col].values)
     optimal_k.append(optimal_k_dict)
optimal_k = pd.DataFrame(optimal_k)
optimal_k

image.png

我们选择最大的最优k作为所有最优k的代表,即k = 12。

目录
相关文章
|
30天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
123 70
|
1月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费习惯分析的深度学习模型
使用Python实现智能食品消费习惯分析的深度学习模型
142 68
|
28天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费市场分析的深度学习模型
使用Python实现智能食品消费市场分析的深度学习模型
112 36
|
22天前
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
69 15
|
26天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费趋势分析的深度学习模型
使用Python实现智能食品消费趋势分析的深度学习模型
107 18
|
2月前
|
测试技术 开发者 Python
使用Python解析和分析源代码
本文介绍了如何使用Python的`ast`模块解析和分析Python源代码,包括安装准备、解析源代码、分析抽象语法树(AST)等步骤,展示了通过自定义`NodeVisitor`类遍历AST并提取信息的方法,为代码质量提升和自动化工具开发提供基础。
63 8
|
2月前
|
机器学习/深度学习 数据采集 供应链
使用Python实现深度学习模型:智能食品市场分析
使用Python实现深度学习模型:智能食品市场分析
46 0
|
30天前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
29天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
17天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
102 80