OpenCV加载深度学习框架与模型

简介: OpenCV加载深度学习框架与模型

1.DNN模块


OPenCV自3.3版本开始,加入了对深度学习网络的支持,即DNN模块,它支持主流的深度学习框架生成与到处模型的加载。


模块简介


OpenCV的深度学习模块DNN,只提供预测的功能,不能使用DNN进行模型训练,但是它支持多种深度学习框架,比如说TensorFlow,Caffe,Torch和Darknet。


DNN的优点:


轻量级:DNN只实现模型预测,推理的功能,代码量和编译运行开销时间小于其他深度学习模型框架

使用方便:无需其他依赖第三方库,只需要下载好对应不同深度学习框架下已经训练好的模型,或者是模型的配置文件,模型参数

通用性:DNN支持网络结构涵盖多种计算机视觉应用,目标分类,目标检测和图像分割的类别


2.DNN模块常用函数方法


与常见的计算机视觉应用一样,再将数据加入到模型之前,需要对数据进行tranform


2.1 cv2.dnn.blobFromImage


blobFromImage(image, 
              scalefactor=None, 
              size=None, 
              mean=None, 
              swapRB=None, 
              crop=None, 
              ddepth=None):


  • image:cv2.imread 读取的图片数据
  • scalefactor:缩放像素值,如 [0, 255] - [0, 1]
  • size:输出blob(图像)的尺寸,如 (netInWidth, netInHeight)
  • mean:从各通道减均值. 如果输入 image 为 BGR 次序,且swapRB=True,则通道次序为 (mean-R, mean-G, mean-B).
  • swapRB:交换 3 通道图片的第一个和最后一个通道,如 BGR - RGB
  • crop:图像尺寸 resize 后是否裁剪. 如果crop=True,则,输入图片的尺寸调整resize后,一个边对应与 size 的一个维度,而另一个边的值大于等于 size 的另一个维度;然后从 resize 后的图片中心进行 crop. 如果crop=False,则无需 crop,只需保持图片的长宽比
  • ddepth:输出 blob 的 Depth. 可选: CV_32F 或 CV_8U


import cv2
from cv2 import dnn
import numpy as np 
import matplotlib.pyplot as plt
img = cv2.imread("data/8.jpg")
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
inWidth = 256
inHeight = 256
outimg1 = cv2.dnn.blobFromImage(img,
                                scalefactor=1.0 / 255,
                                size=(inWidth, inHeight),
                                mean=(0, 0, 0),
                                swapRB=False,
                                crop=False)
outimg1 = np.transpose(outimg1[0], (1, 2, 0))
outimg2 = cv2.dnn.blobFromImage(img,
                                scalefactor=1.0 / 255,
                                size=(inWidth, inHeight),
                                mean=(0, 0, 0),
                                swapRB=False,
                                crop=True)
outimg2 = np.transpose(outimg2[0], (1, 2, 0))
imgs= [img,outimg1,outimg2]
fig=plt.figure(figsize=[10, 10])
titles = ['origin','nocrop','crop']
for i in range(3):
    ax=fig.add_subplot(1,3,i+1)
    ax.axis("off")
    plt.title(titles[i])
    ax.imshow(imgs[i])


2.3 cv2.dnn.NMSBoxes


根据给定的检测boxes和对应的scores进行NMS(非极大值抑制)处理。


NMS原理:我们在做目标检测类似应用时,目标检测算法会给图片上所有物体产生很多的候选框,但这些候选框可能有些会互相重叠,NMS作用就是只保留最优的框。我们目标检测每个框都会有一个置信度分数S。


NMS流程步骤


将所有候选框看成一个集合A,再创建一个存放最优框的集合B,初始化为空集

对集合A,进行框排序,选出置信度分数最高的框m,将m加入到集合B中

遍历剩下集合A,分别与框m计算交并比,如果高于某一个阈值(我们需要设定一个阈值),则认为此框与m重叠,将此框从集合A中去除

重复第2,3步,直到集合A为空,集合B中的框就是我们所需的


b0edf79c244544d9b2965e0aed225e01.png

NMSBoxes(bboxes, 
         scores, 
         score_threshold, 
         nms_threshold, 
         eta=None, 
         top_k=None)


  • boxes:待处理的边界框 bounding boxes
  • scores:对于于待处理边界框的 scores
  • score_threshold:用于过滤 boxes 的 score 阈值
  • nms_threshold:NMS 用到的阈值
  • indices:NMS 处理后所保留的边界框的索引值
  • eta:自适应阈值公式中的相关系数:
  • top_k:如果 top_k>0,则保留最多 top_k 个边界框索引值


2.4 cv2.dnn.readNet


作用:加载深度学习网络及其模型参数

原型:


readNet(model, config=None, framework=None)
• 1

参数:

model:训练的权重参数的模型二值文件,支持的格式有:caffemodel(Caffe)、pb(TensorFlow)、t7 或net(Torch)、weights(Darknet)、bin(DLDT)

config:包含网络配置的文本文件,支持的格式有:.prototxt (Caffe)、pbtxt (TensorFlow)、cfg(Darknet)、.xml (DLDT).

framework: 所支持格式的框架名 该函数自动检测训练模型所采用的深度框架,然后调用readNetFromCaffe、readNetFromTensorflow、readNetFromTorch 或readNetFromDarknet 中的某个函数完成深度学习网络模型及模型参数的加载。

对应于特定框架的API:


2.4.1 cv2.dnn.readNetFromCaffe


readNetFromCaffe(prototxt, caffeModel=None)
• 1


作用:加载采用Caffe的配置网络和训练的权重参数


2.4.2 cv2.dnn.readNetFromDarknet


readNetFromDarknet(cfgFile, darknetModel=None)
• 1


作用:加载采用Darknet的配置网络和训练的权重参数


2.4.3 cv2.dnn.readNetFromTensorflow


readNetFromTensorflow(model, config=None)
• 1


作用:加载采用Tensorflow 的配置网络和训练的权重参数


参数:

  • model: .pb 文件
  • config: .pbtxt 文件

2.4.4 cv2.dnn.readNetFromTorch


作用:加载采用 Torch 的配置网络和训练的权重参数

参数:model: 采用 torch.save()函数保存的文件


3.OpenCV使用预训练模型做应用


步骤:

  1. 加载模型
  2. 图像预处理
  3. 模型推理

3.1 加载模型


目前主流的框架为pytorch

92cc8b7e8d0b422d973018d15201ec09.png


这里就只详细说明一下,加载pytorch和Darknet所用的配置文件吧


3.1.1 pytorch


在pytorch中有三种保存模型方式:


经常会看到后缀名为.pt, .pth, .pkl的pytorch模型文件,其实它们并不是在格式上有区别,只是后缀不同而已(仅此而已),在用torch.save()函数保存模型文件时,各人有不同的喜好,有些人喜欢用.pt后缀,有些人喜欢用.pth或.pkl.用相同的torch.save()语句保存出来的模型文件没有什么不同。


注意模型文件的格式


#1
torch.save(model,'model.pt')
#2
torch.save(model.state_dict(),'model.pt')


在cv2.dnn.readNetFromTorch,我们加载的是后者,即模型的参数。


3.1.2 Darknet


darknet框架是针对yolo模型的,以yolov3做coco目标检测模型为例。

Darknet模型有这样几个文件:


  • yolov3.weights
  • yolov3.cfg
  • coco.names

DNN加载模型

model = cv2.dnn.readNetFromDarknet('yolov3.cfg','yolov3.weights')
• 1


3.1.3 python代码


# detect.py
import cv2
import numpy as np
import os
import time
def yolo_detect(pathIn='',
                pathOut=None,
                label_path='./cfg/coco.names',
                config_path='./cfg/yolov3.cfg',
                weights_path='./cfg/yolov3.weights',
                confidence_thre=0.5,
                nms_thre=0.3,
                jpg_quality=80):
    '''
    pathIn:原始图片的路径
    pathOut:结果图片的路径
    label_path:类别标签文件的路径
    config_path:模型配置文件的路径
    weights_path:模型权重文件的路径
    confidence_thre:0-1,置信度(概率/打分)阈值,即保留概率大于这个值的边界框,默认为0.5
    nms_thre:非极大值抑制的阈值,默认为0.3
    jpg_quality:设定输出图片的质量,范围为0到100,默认为80,越大质量越好
    '''
    # 加载类别标签文件
    LABELS = open(label_path).read().strip().split("\n")
    nclass = len(LABELS)
    # 为每个类别的边界框随机匹配相应颜色
    np.random.seed(42)
    COLORS = np.random.randint(0, 255, size=(nclass, 3), dtype='uint8')
    # 载入图片并获取其维度
    base_path = os.path.basename(pathIn)
    img = cv2.imread(pathIn)
    (H, W) = img.shape[:2]
    # 加载模型配置和权重文件
    print('从硬盘加载YOLO......')
    net = cv2.dnn.readNetFromDarknet(config_path, weights_path)
    # 获取YOLO输出层的名字
    ln = net.getLayerNames()
    ln = [ln[i[0] - 1] for i in net.getUnconnectedOutLayers()]
    # 将图片构建成一个blob,设置图片尺寸,然后执行一次
    # YOLO前馈网络计算,最终获取边界框和相应概率
    blob = cv2.dnn.blobFromImage(img, 1 / 255.0, (416, 416), swapRB=True, crop=False)
    net.setInput(blob)
    start = time.time()
    layerOutputs = net.forward(ln)
    end = time.time()
    # 显示预测所花费时间
    print('YOLO模型花费 {:.2f} 秒来预测一张图片'.format(end - start))
    # 初始化边界框,置信度(概率)以及类别
    boxes = []
    confidences = []
    classIDs = []
    # 迭代每个输出层,总共三个
    for output in layerOutputs:
        # 迭代每个检测
        for detection in output:
            # 提取类别ID和置信度
            scores = detection[5:]
            classID = np.argmax(scores)
            confidence = scores[classID]
            # 只保留置信度大于某值的边界框
            if confidence > confidence_thre:
                # 将边界框的坐标还原至与原图片相匹配,记住YOLO返回的是
                # 边界框的中心坐标以及边界框的宽度和高度
                box = detection[0:4] * np.array([W, H, W, H])
                (centerX, centerY, width, height) = box.astype("int")
                # 计算边界框的左上角位置
                x = int(centerX - (width / 2))
                y = int(centerY - (height / 2))
                # 更新边界框,置信度(概率)以及类别
                boxes.append([x, y, int(width), int(height)])
                confidences.append(float(confidence))
                classIDs.append(classID)
    # 使用非极大值抑制方法抑制弱、重叠边界框
    idxs = cv2.dnn.NMSBoxes(boxes, confidences, confidence_thre, nms_thre)
    # 确保至少一个边界框
    if len(idxs) > 0:
        # 迭代每个边界框
        for i in idxs.flatten():
            # 提取边界框的坐标
            (x, y) = (boxes[i][0], boxes[i][1])
            (w, h) = (boxes[i][2], boxes[i][3])
            # 绘制边界框以及在左上角添加类别标签和置信度
            color = [int(c) for c in COLORS[classIDs[i]]]
            cv2.rectangle(img, (x, y), (x + w, y + h), color, 2)
            text = '{}: {:.3f}'.format(LABELS[classIDs[i]], confidences[i])
            (text_w, text_h), baseline = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2)
            cv2.rectangle(img, (x, y - text_h - baseline), (x + text_w, y), color, -1)
            cv2.putText(img, text, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 0), 2)
    # 输出结果图片
    if pathOut is None:
        cv2.imwrite('with_box_' + base_path, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality])
    else:
        cv2.imwrite(pathOut, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality])
相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
2月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
3月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
100 0
|
2天前
|
机器学习/深度学习 数据可视化 TensorFlow
【Python 机器学习专栏】使用 TensorFlow 构建深度学习模型
【4月更文挑战第30天】本文介绍了如何使用 TensorFlow 构建深度学习模型。TensorFlow 是谷歌的开源深度学习框架,具备强大计算能力和灵活编程接口。构建模型涉及数据准备、模型定义、选择损失函数和优化器、训练、评估及模型保存部署。文中以全连接神经网络为例,展示了从数据预处理到模型训练和评估的完整流程。此外,还提到了 TensorFlow 的自动微分、模型可视化和分布式训练等高级特性。通过本文,读者可掌握 TensorFlow 基本用法,为构建高效深度学习模型打下基础。
|
4天前
|
机器学习/深度学习 算法 TensorFlow
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
|
5天前
|
机器学习/深度学习 算法 数据可视化
MATLAB基于深度学习U-net神经网络模型的能谱CT的基物质分解技术研究
MATLAB基于深度学习U-net神经网络模型的能谱CT的基物质分解技术研究
11 0
|
6天前
|
机器学习/深度学习 监控 数据可视化
【日常聊聊】解决深度学习模型挑战:解释性与鲁棒性的平衡
【日常聊聊】解决深度学习模型挑战:解释性与鲁棒性的平衡
|
6天前
|
机器学习/深度学习 TensorFlow API
Python安装TensorFlow 2、tf.keras和深度学习模型的定义
Python安装TensorFlow 2、tf.keras和深度学习模型的定义
|
15天前
|
机器学习/深度学习 数据可视化 算法框架/工具
R语言深度学习KERAS循环神经网络(RNN)模型预测多输出变量时间序列
R语言深度学习KERAS循环神经网络(RNN)模型预测多输出变量时间序列
29 10
|
16天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
21 0