AI计算机视觉笔记十七:实例分割

简介: 本文介绍了计算机视觉中的实例分割技术,通过结合目标检测和语义分割的方法,实现对图像中不同实例的精确区分与标记。以识别多只猫为例,详细描述了使用Mask R-CNN模型进行实例分割的过程,并提供了相关代码及环境搭建指南。通过实例演示,展示了如何利用该技术成功识别并分割出图像中的各个对象。

一、介绍

计算机视觉分为四大基本任务(分类、定位、检测、分割)。而这里了解了一下实例分割。

实例分割:机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记

借一个浅显的说法:语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。

这里以猫为例,基本思路:目标检测+语义分割。

通过目标检测,先检测到猫,然后在用语义分割,就可以实现把猫区分出来,最终达到下图效果
image.png

二、实现过程

实现使用的是Mask R-CNN,Mask R-CNN用于目标检测和分割

地址:

GitHub - matterport/Mask_RCNN:Mask R-CNN,用于 Keras 和 TensorFlow 上的对象检测和实例分割

也可以自己训练数据集,训练方法文档有详细教程。

这是使用是基于mask rcnn训练好的coco数据集的权重mask_rcnn_coco.h5模型。

mask_rcnn_coco.h5:下载链接如下:
链接:https://pan.baidu.com/s/1k0IhAh-H8HYsKl7t9C6jAQ 
提取码:bu1r 
--来自百度网盘超级会员V4的分享

1、下载源码

Releases · matterport/Mask_RCNN · GitHub
image.png
下载后解压,并下载模型,在源码下新建目录weighs存放模型,结构如下:
image.png

三、创建环境

这是使用的是pixellib,安装使用方法:https://pixellib.readthedocs.io/en/latest/index.html

image.png
根据上面创建环境

1、创建虚拟机

conda create -n danmu python==3.8

2、安装

所需要安装的

# TensorFlow
# Windows:pip3 install tensorflow==2.2.0  (最新版的2.8可能会报错)
# macOS:conda install -c conda-forge tensorflow

# pip3 install imgaug
# pip3 install pixellib --upgrade
# conda install -c conda-forge jupyterlab
pip install tensorflow==2.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install imgaug -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pixellib --upgrade -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install 'protobuf~=3.19.0' -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install numpy==1.23.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
conda install -c conda-forge jupyterlab
jupyter lab

到此,环境搭建完成。接下来是编写一个简单的代码测试一下。

四、代码

功能不是很复杂,基本看得懂,所以直接上代码。

这里注意target_classes = segment_frame.select_target_classes(cat=True),选择的类别是猫,模型也有其他的,可以自行修改。

import cv2
import numpy as np
import matplotlib.pyplot as plt
import pixellib
from pixellib.instance import instance_segmentation


class Segment_Video:
    def __init__(self):
        pass

    def segment_det(self):
        # 实例化
        segment_frame = instance_segmentation()
        segment_frame.load_model("weights/mask_rcnn_coco.h5")

        # 选择类别
        target_classes = segment_frame.select_target_classes(cat=True)

        # 摄像头
        #cap = cv2.VideoCapture(0)
        cap = cv2.VideoCapture('./videos/video_cat.mp4')

        # 获取视频宽度与高度
        frame_w = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
        frame_h = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
        # 获取帧率
        fps = int(cap.get(cv2.CAP_PROP_FPS))

        # 构建视频写入器
        video_name = './out_video/out_video_cat.mp4'
        video_writer = cv2.VideoWriter(video_name, cv2.VideoWriter_fourcc(*'mp4v'), fps, (frame_w, frame_h))

        frame_index = 0

        while True:
            ret, frame = cap.read()
            if frame is None:
                break

            frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

            # 分割
            results, output = segment_frame.segmentFrame(frame, segment_target_classes=target_classes, show_bboxes=True)

            output = cv2.cvtColor(output, cv2.COLOR_RGB2BGR)

            cv2.imshow('test?', output)

            video_writer.write(output)

            frame_index += 1
            print('第%d帧处理完毕' % (frame_index))

            if cv2.waitKey(10) & 0xFF == ord('q'):
                break

        cap.release()
        cv2.destroyAllWindows()

demo = Segment_Video()
demo.segment_det()

运行结束后,在保存成一个视频。效果如下,基本可以识别出猫,并分割出来。
image.png

相关文章
|
2月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
AI计算机视觉笔记三十二:LPRNet车牌识别
LPRNet是一种基于Pytorch的高性能、轻量级车牌识别框架,适用于中国及其他国家的车牌识别。该网络无需对字符进行预分割,采用端到端的轻量化设计,结合了squeezenet和inception的思想。其创新点在于去除了RNN,仅使用CNN与CTC Loss,并通过特定的卷积模块提取上下文信息。环境配置包括使用CPU开发板和Autodl训练环境。训练和测试过程需搭建虚拟环境并安装相关依赖,执行训练和测试脚本时可能遇到若干错误,需相应调整代码以确保正确运行。使用官方模型可获得较高的识别准确率,自行训练时建议增加训练轮数以提升效果。
|
2月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
2月前
|
人工智能 并行计算 测试技术
AI计算机视觉笔记三十一:基于UNetMultiLane的多车道线等识别
该项目基于开源数据集 VIL100 实现了 UNetMultiLane,用于多车道线及车道线类型的识别。数据集中标注了六个车道的车道线及其类型。项目详细记录了从环境搭建到模型训练与测试的全过程,并提供了在 CPU 上进行训练和 ONNX 转换的代码示例。训练过程约需 4 小时完成 50 个 epoch。此外,还实现了视频检测功能,可在视频中实时识别车道线及其类型。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
27 1
|
10天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
100 48
|
6天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
本文探讨了人工智能(AI)在医疗领域的应用,包括其在疾病诊断、治疗方案制定、患者管理等方面的优势和潜力。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题以及技术局限性等。通过对这些内容的深入分析,旨在为读者提供一个全面了解AI在医疗领域现状和未来发展的视角。
31 10
|
6天前
|
机器学习/深度学习 人工智能 监控
探索AI在医疗领域的应用与挑战
本文深入探讨了人工智能(AI)在医疗领域中的应用现状和面临的挑战。通过分析AI技术如何助力疾病诊断、治疗方案优化、患者管理等方面的创新实践,揭示了AI技术为医疗行业带来的变革潜力。同时,文章也指出了数据隐私、算法透明度、跨学科合作等关键问题,并对未来的发展趋势进行了展望。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。