在Python中使用K-Means聚类和PCA主成分分析进行图像压缩(二)

简介: 在Python中使用K-Means聚类和PCA主成分分析进行图像压缩(二)

重复试验

在本节中,我们将在𝑘= 2到𝑘= 20之间重复此步骤:

  1. 执行k-means以获取每个像素的聚类中心和聚类标签
  2. 将每个像素替换为其聚类中心。
  3. 保存指标值以进行进一步优化:WCSS,BCSS,解释方差和图像大小
  4. 用越来越多的颜色绘制压缩图像
range_k_clusters = (2, 21)
kmeans_result = []
for k in range(*range_k_clusters):
     # CLUSTERING
     kmeans = KMeans(n_clusters = k,
                     n_jobs = -1,
                     random_state = 123).fit(X)
     # REPLACE PIXELS WITH ITS CENTROID
     new_pixels = replaceWithCentroid(kmeans)
     # EVALUATE
     WCSS = kmeans.inertia_
     BCSS = calculateBCSS(X, kmeans)
     exp_var = 100*BCSS/(WCSS + BCSS)
     metric = {
         "No. of Colors": k,
         "Centroids": list(map(get_colour_name, np.uint8(kmeans.cluster_centers_))),
         "Pixels": new_pixels,
         "WCSS": WCSS,
         "BCSS": BCSS,
         "Explained Variance": exp_var,
         "Image Size (KB)": imageByteSize(new_pixels)
    }
     kmeans_result.append(metric)
kmeans_result = pd.DataFrame(kmeans_result).set_index("No. of Colors")
kmeans_result

image.png

聚类指标:最佳的颜色种类数

在本节中,我们将尝试搜索最佳的颜色数(聚类中心)k,以便在保持较高的解释方差百分比的同时将内存大小减小到尽可能小。

image.png

如何确定最佳颜色数k?以下是算法:

  1. 用直线连接曲线的第一个和最后一个点
  2. 计算每个点到该线的垂直距离
  3. 将距离最长的点视为拐点

image.png

下一个问题,如何在步骤2中计算垂直距离?很简单,我们可以使用从点(x0,y0)到线ax + by + c = 0的距离公式,如下所示:

image.png

def locateOptimalElbow(x, y):
     # START AND FINAL POINTS
     p1 = (x[0], y[0])
     p2 = (x[-1], y[-1])
     # EQUATION OF LINE: y = mx + c
     m = (p2[1] - p1[1]) / (p2[0] - p1[0])
     c = (p2[1] - (m * p2[0]))
     # DISTANCE FROM EACH POINTS TO LINE mx - y + c = 0
     a, b = m, -1
     dist = np.array([abs(a*x0+b*y0+c)/math.sqrt(a**2+b**2) for x0, y0 in zip(x,y)])
     return np.argmax(dist) + x[0]

但是,如果图形不是增加或减少的曲线函数,该怎么办?我们可以使用有限差分法使用二阶导数来定位梯度中变化最剧烈的地方。

什么是有限差分法?这是一种数值方法,可以近似离散值的导数。共有三种类型:

forward差异:

image.png

backward差异:

image.png

中心差异:

image.png

其中:

f’(x)是函数f(x)的一阶导数h是步长,在这种情况下,h = 1(颜色数的步长)O(h)是一级误差项O(h²)是二次误差项

由于中心差异具有较高的度数误差项,因此预期它会比其他两个差异产生更好的结果。我们仅对第一个点使用前向差异,对最后一个点使用后向差异。

def calculateDerivative(data):
     derivative = []
     for i in range(len(data)):
         if i == 0:
             # FORWARD DIFFERENCE
             d = data[i+1] - data[i]
         elif i == len(data) - 1:
             # BACKWARD DIFFERENCE
             d = data[i] - data[i-1]
         else:
             # CENTER DIFFERENCE
             d = (data[i+1] - data[i-1])/2
         derivative.append(d)
     return np.array(derivative)
def locateDrasticChange(x, y):
     # CALCULATE GRADIENT BY FIRST DERIVATIVE
     first_derivative = calculateDerivative(np.array(y))
     # CALCULATE CHANGE OF GRADIENT BY SECOND DERIVATIVE
     second_derivative = calculateDerivative(first_derivative)
return np.argmax(np.abs(second_derivative)) + x[0]

让我们搜索每个指标的最佳k值:

optimal_k = []
for col in kmeans_result.columns[2:]:
     optimal_k_dict = {}
     optimal_k_dict["Metric"] = col
     if col == "Image Size (KB)":
         optimal_k_dict["Method"] = "Derivative"
         optimal_k_dict["Optimal k"] = locateDrasticChange(kmeans_result.index, kmeans_result[col].values)
     else:
         optimal_k_dict["Method"] = "Elbow"
         optimal_k_dict["Optimal k"] = locateOptimalElbow(kmeans_result.index, kmeans_result[col].values)
     optimal_k.append(optimal_k_dict)
optimal_k = pd.DataFrame(optimal_k)
optimal_k

image.png

我们选择最大的最优k作为所有最优k的代表,即k = 12。

目录
相关文章
|
5月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
5月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
5月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
6月前
|
JSON 缓存 供应链
电子元件 item_search - 按关键字搜索商品接口深度分析及 Python 实现
本文深入解析电子元件item_search接口的设计逻辑与Python实现,涵盖参数化筛选、技术指标匹配、供应链属性过滤及替代型号推荐等核心功能,助力高效精准的电子元器件搜索与采购决策。
|
6月前
|
缓存 供应链 芯片
电子元件类商品 item_get - 商品详情接口深度分析及 Python 实现
电子元件商品接口需精准返回型号参数、规格属性、认证及库存等专业数据,支持供应链管理与采购决策。本文详解其接口特性、数据结构与Python实现方案。
|
Python
Python学习笔记(22)-压缩与解压
本文目录 1. 简介 2. 代码
419 0
|
6月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
825 102
|
6月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
414 104

推荐镜像

更多