图像预处理之图像去重

简介: 图像预处理之图像去重

图像去重


介绍


图像去重通常指的是完全相同的图像,即内容完全相同,颜色、尺寸、方向等都相同。但是在实际应用中,也有相似图像去重的需求,即内容大致相同,颜色、尺寸、方向等可能有所不同。因此,图像去重指的可以是完全一样的图像,也可以是相似的图像。


图像去重的方法有以下几种:


方法


1.哈希法:通过计算图像的散列值来识别重复图像。


2.图像比对法:通过对图像的直方图或灰度共生矩阵等特征进行比对来识别重复图像。


3.机器学习法:通过训练机器学习模型来识别重复图像,例如使用卷积神经网络(CNN)。


4.特征提取法:通过提取图像的特征,例如 SIFT 等,并将其映射到一个空间中,以识别重复图像。


这些方法的选择取决于图像去重的具体需求和数据的特征。


基于直方图进行图像比对

import cv2
import numpy as np
def compare_images(image1, image2):
    # 计算图像的直方图
    hist1 = cv2.calcHist([image1], [0], None, [256], [0, 256])
    hist2 = cv2.calcHist([image2], [0], None, [256], [0, 256])
    # 计算直方图的相似度
    similarity = cv2.compareHist(hist1, hist2, cv2.HISTCMP_CORREL)
    return similarity
# 读入两张图片
img1 = cv2.imread('image1.jpg')
img2 = cv2.imread('image2.jpg')
# 计算两张图片的相似度
similarity = compare_images(img1, img2)
# 根据相似度判断图片是否重复
if similarity > 0.95:
    print("Images are duplicates")
else:
    print("Images are not duplicates")

基于哈希法

import cv2
import hashlib
def calculate_hash(image):
    # 调整图像大小
    image = cv2.resize(image, (9, 8), interpolation = cv2.INTER_CUBIC)
    # 转换为灰度图像
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    # 计算哈希值
    hash_value = 0
    for i in range(8):
        for j in range(8):
            if gray[i, j] > gray[i, j + 1]:
                hash_value += 1 << (i * 8 + j)
    return hash_value
# 读入两张图片
img1 = cv2.imread('image1.jpg')
img2 = cv2.imread('image2.jpg')
# 计算图片的哈希值
hash1 = calculate_hash(img1)
hash2 = calculate_hash(img2)
# 判断图片是否重复
if hash1 == hash2:
    print("Images are duplicates")
else:
    print("Images are not duplicates")

基于ORG进行图像特征提取

import cv2
def extract_features(image):
    # 使用 ORB 算法提取图像的特征点
    orb = cv2.ORB_create()
    keypoints, descriptors = orb.detectAndCompute(image, None)
    return keypoints, descriptors
# 读入两张图片
img1 = cv2.imread('image1.jpg')
img2 = cv2.imread('image2.jpg')
# 提取图像的特征点和描述符
kp1, des1 = extract_features(img1)
kp2, des2 = extract_features(img2)
# 匹配两张图片的特征点
bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck = True)
matches = bf.match(des1, des2)
# 计算匹配到的特征点数量
match_count = len(matches)
# 判断图片是否重复
if match_count > 10:
    print("Images are duplicates")
else:
    print("Images are not duplicates")

基于机器学习

import cv2
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
# Load the images and resize them to a fixed size
images = []
labels = []
for i in range(10):
    img = cv2.imread(f'image_{i}.jpg')
    img = cv2.resize(img, (128, 128))
    images.append(img)
    labels.append(i % 5)
# Extract features from the images using a feature extractor
def extract_features(images):
    features = []
    for img in images:
        hist = cv2.calcHist([img], [0, 1, 2], None, [8, 8, 8], [0, 256, 0, 256, 0, 256])
        hist = hist.flatten()
        features.append(hist)
    return np.array(features)
features = extract_features(images)
# Train a KNN classifier on the features
clf = KNeighborsClassifier(n_neighbors=1)
clf.fit(features, labels)
# Use the classifier to predict the label of a new image
new_img = cv2.imread('new_image.jpg')
new_img = cv2.resize(new_img, (128, 128))
new_features = extract_features([new_img])
predicted_label = clf.predict(new_features)

批量去重

import os
import cv2
import numpy as np
def calc_hist(image):
    """Calculate the histogram of an image."""
    hist = cv2.calcHist([image], [0], None, [256], [0, 256])
    return hist.flatten()
def find_duplicates(path):
    """Find duplicate images in a directory."""
    image_hashes = {}
    duplicates = []
    for filename in os.listdir(path):
        file_path = os.path.join(path, filename)
        if os.path.isfile(file_path):
            try:
                image = cv2.imread(file_path, 0)
                hist = calc_hist(image)
                hash = np.array_str(hist)
                if hash in image_hashes:
                    duplicates.append((file_path, image_hashes[hash]))
                else:
                    image_hashes[hash] = file_path
            except:
                pass
    return duplicates
dp = find_duplicates('data')
print(dp)
目录
相关文章
|
JSON 数据格式 Python
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
1079 0
对Labelme标注图像,进行90、180、270的旋转,实现标注数据的扩充。
|
6月前
halcon算子模板匹配(一)基于形状的模板匹配
halcon算子模板匹配(一)基于形状的模板匹配
902 0
|
3月前
|
机器学习/深度学习 Python
图像预处理
【8月更文挑战第4天】图像预处理。
45 9
|
5月前
|
Java
图像分析之直方图分析
图像分析之直方图分析
35 0
|
6月前
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
263 0
|
6月前
图像表示方法
图像表示方法
57 0
|
6月前
|
存储 编解码 数据库
基于文本嵌入和 CLIP 图像嵌入的多模态检索
基于文本嵌入和 CLIP 图像嵌入的多模态检索
379 0
|
存储 机器学习/深度学习 编解码
使用训练分类网络预处理多分辨率图像
说明如何准备用于读取和预处理可能不适合内存的多分辨率全玻片图像 (WSI) 的数据存储。肿瘤分类的深度学习方法依赖于数字病理学,其中整个组织切片被成像和数字化。生成的 WSI 具有高分辨率,大约为 200,000 x 100,000 像素。WSI 通常以多分辨率格式存储,以促进图像的高效显示、导航和处理。 读取和处理WSI数据。这些对象有助于使用多个分辨率级别,并且不需要将图像加载到核心内存中。此示例演示如何使用较低分辨率的图像数据从较精细的级别有效地准备数据。可以使用处理后的数据来训练分类深度学习网络。
324 0
|
机器学习/深度学习 资源调度 算法
图像提取特征(下)| 学习笔记
快速学习图像提取特征(下),介绍了图像提取特征(下)系统机制, 以及在实际应用过程中如何使用。
图像提取特征(下)| 学习笔记
|
计算机视觉
图像的点云拼接
理解好图像的点云拼接,需要从相机的模型说起。理解相机的成像原理之后。 便可更为深刻的理解 图像的点云 如何拼接在一起。
图像的点云拼接