【COCO数据集】COCO API 解析图像数据和目标标签,vision-transformer DETR的相关transforms操作实现

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【COCO数据集】COCO API 解析图像数据和目标标签,vision-transformer DETR的相关transforms操作实现

在大多数情况下,我们在为模型创建训练数据集时无需担心注释格式。 COCO API为我们提供了一系列的api函数,方便我们获取任务的图像数据和目标标签。

PaddleViT: COCODataset

COCO数据集有一个名为pycocotools的 python API,供用户轻松加载和使用COCO数据集进行检测、分割和其他cv任务。 以下是基于 pycocotools 实现COCO检测数据集的PaddleViT实现,并用于训练和验证。

CocoDataset Class

CocoDataset 类由 paddle.io.Dataset 类实现, 并需要两个函数 __getitem__ 与 __len__ , 即:

class CocoDetection(paddle.io.Dataset):
    def __init__(self, image_folder, anno_file, transforms, return_mask):
        super().__init__()
        ...
    def __getitem__(self, idx):
        ...
    def __len__(self):
        ...

__init__ method

在类的初始化方法中:

  1. 通过调用pycocotools api加载coco数据集的anno文件。
  2. 获取图像id并删除没有注释的图像。
  3. 通过init参数设置数据转换(预处理器)。
  4. 定义标签转换方法。(详情见下节)。
from pycocotools.coco import COCO
...
class CocoDataset():
    def __init__(self):
        super().__init__()
        # step1
        self.coco = COCO(anno_file)
        # step2
        ids = list(sorted(self.coco.imgs.keys()))
        self.ids = self._remove_images_without_annotations(ids)
        # step3
        self._transforms = transforms
        # step4
        self.prepare = ConvertCocoPolysToMasks(return_masks)
        self.root = img_folder

__getitem__ method

__getitem__方法将索引作为输入,并输出包含单张图像及其目标标签的(image, target) 对。在coco检测中,这个目标是一个类似于以下形式的 dict :

target = {'image_id': image_id, 'annotations': target}

image_id 是在coco注释中相同的图像id.

target 是键值对的字典,例如 bbox 和 mask. (英文版单词拼写错误)

__getitem__ 方法定义:

  1. 使用COCO API加载指定的图像及其标签
  2. 转换标签(如将掩码从多边形转换为掩码数组)
  3. 输入数据的预处理转换
def __getitem__(self, idx):
    image_id = self.ids[idx]
    image = self._load_image(image_id)
    target = self._load_target(image_id)
    target = {'image_id': image_id, 'annotations': target}
    image, target = self.prepare(image, target)
    if self._transform is not None:
        image, target = self._transform(image, target)
    return image, target

__len__ method

返回数据集中的样本数,与ids长度相同:

def __len__(self):
    return len(self.ids)

_load_image, _load_target methods

PIL.Image 和 COCO API 用于根据给定索引获取图像数据和原始目标标签.

def _load_image(self, idx):
    """ Return PIL Image (RGB) according to COCO image id"""
    path = self.coco.loadImgs(idx)[0]['file_name']
    return Image.open(os.path.join(self.root, path)).convert('RGB')
def _load_target(self, idx):
    """ Return image annos according to COCO image id"""
    return self.coco.loadAnns(self.coco.getAnnIds(idx))

ConvertCocoPolysToMasks Class

该类定义了以图像和标签为输入并输出图像数组和处理后的标签。

专门对于目标标签的处理:

  1. 去掉iscrowd=1的图像;
  2. 将[x1, y1, x2, y2]中的包围框转换为numpy数组类型,然后根据包围框裁剪图像;
  3. 将类标签转换为numpy数组;
  4. 如果返回掩码(对于分割任务),使用coco api将多边形数据转换为掩码数组;
  5. 如果返回关键点(用于关键点检测),则将关键点加载到数组中;
  6. 消除面积为0的包围框;
  7. 将处理后的标签保存在target字典中。

Transforms Module

在转换模块(transforms.py)中定义了多种数据压缩方法。 定义我们自己的模块而不是使用paddle视觉转换的原因是,每个数据变换都必须应用于图像数据集其目标标签,例如bbox和掩码。假设在训练期间对图像数据应用类随机裁剪操作,则该图像中的bbox必需应用相同的裁剪。

Validation transforms

DETR 的验证转换具有以下操作:

  • RandomResize(): 将图像和标签调整为具有相同比例的特定大小。
  • ToTensor(): 将图像数据转换为 paddle.Tensor
  • Normalize(): 均值$-mean$和$/std$

Training transforms

DETR的训练转换具有以下操作:

  • RandomHorizontalFlip() 随机水平翻转数据。
  • RandomSelect() 随机选择两个子操作之一: (1) 一个单个 RandomResize 步骤; (2) 一个 三步骤操作: RandomReize, RandomSizeCrop, 以及 RandomResize
  • ToTensor(): 将图像数据转换为 paddle.Tensor
  • Normalize(): 图像数据标准化, $-mean$ 和 $/std$

RandomHorizontalFlip()

此变换需要初始化参数中的概率用来控制是否应用反转的随机性。

class RandomHorizontalFlip():
    def __init__(self, p=0.5):
        self.p = p
    def __call__(self, image, target):
        if random.random() < self.p:
            return hflip(image, target)
        return image, target

hflip 方法定义了图像和目标(包含包围框和盐吗的真实标注值的字典)的水平翻转操作。

RandomSelect()

RandomSelect()有一个prob值控制选择它的两个子操作之一的随机性。

class RandomSelect():
    """ Random select one the transforms to apply with probablity p"""
    def __init__(self, transforms1, transforms2, p=0.5):
        self.transforms1 = transforms1
        self.transforms2 = transforms2
        self.p = p
    def __call__(self, image, target):
        if random.random() > self.p:
            return self.transforms1(image, target)
        return self.transforms2(image, target)

两个转换操作在DETR训练中使用:

  • RandomResize()
  • RandomResize() + RandomSizeCrop() + RandomResize()

RandomResize()

RandomResize有两个参数:sizes 和 max_size. 该方法随机选择sizes中的一个值作为图像短边的目标尺寸,同时保持图像的比例不变。但是,如果图像的长边大于max_size(当使用所选尺寸作为短边时),则将图像的长边设置为max_size,而较短的尺寸需要重新计算以保持图像长宽比例不变。

必须在bbox和掩码使用相同的尺寸调整操作。 通过乘以高度和宽度的比例可以转换包围框。可以通过插值和二值化来转换掩码以获得缩放掩码(如果 values > 0.5则设置为1,否则设置为0)。

RandomSizeCrop()

RandomSizeCrop 将min_size和max_size 作为输入,然后将裁减图像中的随机区域作为输出。输出区域的尺寸为 [randint(min_size, max_size), randint(min_size, max_size)].

RandomSizeCrop 分为三个步骤实现:

  • STEP1: 给定 min_size, max_size 和原始图像尺寸,生成随机图像宽度和图像高度。
  • STEP2: 给定裁剪后的图像大小,随机选择图像内裁减区域的位置。这个区域可以用 [top, left, height, width]表示.
  • STEP3: 给定裁剪区域,裁剪图像和目标的标签,例如 包围框和掩码.

具体来说,我们实现了一个crop方法,其输入

(1)在[top, left, height, width]中的裁剪区域,

(2) 原始图像 以及 (3) 目标标签,然后返回裁剪后的图像和裁剪后的标签。

(请注意,在裁剪之后,原始包围框或者掩码也会被裁剪,甚至在裁剪后的图像中看不到,因此,我们必须从目标标签中消除那些无效的框和掩吗。)

ToTensor()

ToTensor 将图像数据从PIL.Image转换为paddle.Tensor, 返回图像张量和相应的标签,通过以下方式可以实现:

import paddle.vision.transforms as T
class ToTensor:
    def __call__(self, image, target):
        return T.to_tensor(image), target

Normalize()

在 Normalize方法中, 除了数据归一化(-mean & /std), 我们还将包围框从 [x0, y0, x1, y1] 归一化为 [cx, cy, w, h], 根据图像尺寸归一化为相对坐标. 实现方式如下:

class Normalize():
    def __init__(self, mean, std):
        self.mean = mean
        self.std = std
    def __call__(self, image, target=None):
        # -mean, / std
        image = T.functional.normalize(image, mean=self.mean, std=self.std)
        if target is None:
            return image, None
        target = target.copy()
        # from xyxy -> cxcywh -> relative coords
        h, w = image.shape[-2:]
        if 'boxes' in target and target['boxes'].shape[0] != 0:
            boxes = target['boxes']
            boxes = box_xyxy_to_cxcywh_numpy(boxes)
            boxes = boxes / np.array([w, h, w, h], dtype='float32')
            target['boxes'] = boxes
        return image, target
目录
相关文章
|
2天前
|
监控 API 数据处理
速卖通商品数据尽在掌握:揭秘高效利用API接口获取详情策略
速卖通(AliExpress)API助力电商数据处理与分析,提供商品搜索、价格监控等功能。开发者需注册账号、创建应用并获取API Key。常用接口包括商品搜索和详情API。调用时注意频率限制、数据延迟及错误处理。本文介绍全过程并附Python示例代码,帮助提升电商运营效率。
|
15天前
|
数据采集 数据可视化 前端开发
怎么通过API获取电竞赛事实时数据
选择合适的电竞数据API是开发电竞应用的关键。主流API包括OP.GG、Liquipedia、Stratz、Riot Games和熊猫比分,涵盖LOL、DOTA2等游戏的实时数据。注册并获取API密钥后,需仔细阅读文档,了解资源、请求方法、必需参数及响应格式。编写代码调用API时,注意优化请求频率,避免封禁。最后,通过Web界面或可视化工具展示数据,如React/D3.js、Tableau等。示例代码展示了如何使用熊猫比分API获取即将开始的比赛信息。
|
12天前
|
供应链 监控 API
1688.item_search_shop API:开启电商数据新纪元
1688.item_search_shop API是阿里巴巴1688平台提供的核心接口之一,支持根据关键词搜索指定店铺的商品,并获取商品详情、图片、价格等信息。该API允许设定搜索结果排序方式,如按销量或价格排序,满足不同需求。开发者可将其集成到电商应用中,提升用户体验;市场分析人员可利用其进行趋势和竞争对手分析;供应链管理人员则能监控库存,优化策略。示例代码展示了如何使用Python调用该API,帮助开发者快速上手。这一API的推出标志着B2B电商领域商品搜索技术的重要进步,推动行业向更高效、智能的方向发展。
|
22天前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
2月前
|
API 网络安全
发送UDP数据免费API接口教程
此API用于向指定主机发送UDP数据,支持POST或GET请求。需提供用户ID、密钥、接收IP及端口、数据内容等参数。返回状态码和信息提示。示例中含公共ID与KEY,建议使用个人凭证以提高调用频率。
50 13
|
2月前
|
网络协议 API 网络安全
发送TCP数据免费API接口教程
此API用于向指定主机发送TCP数据,支持POST/GET请求,需提供用户ID、KEY、接收IP、端口及数据内容。返回状态码和信息提示,示例如下:{&quot;code&quot;:200,&quot;msg&quot;:&quot;发送成功!&quot;}。详情见:https://www.apihz.cn/api/datacstcp.html
45 11
|
1月前
|
Android开发 开发者 Python
通过标签清理微信好友:Python自动化脚本解析
微信已成为日常生活中的重要社交工具,但随着使用时间增长,好友列表可能变得臃肿。本文介绍了一个基于 Python 的自动化脚本,利用 `uiautomator2` 库,通过模拟用户操作实现根据标签批量清理微信好友的功能。脚本包括环境准备、类定义、方法实现等部分,详细解析了如何通过标签筛选并删除好友,适合需要批量管理微信好友的用户。
56 7
|
2月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
159 3
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
2月前
|
API 数据安全/隐私保护 开发者
实时获取小红书详情 API 数据
小红书详情API数据获取指南:注册开发者账号,创建应用并申请接口权限,构建请求获取笔记详情,使用Python等语言处理响应数据。需遵守使用规则,注意调用频率和数据安全。
|
2月前
|
XML 数据可视化 API
商品详情数据实战案例,API接口系列
淘宝商品详情数据在电商领域具有广泛的应用价值,而淘宝商品详情API接口则为开发者提供了获取这些数据的重要途径。通过合理利用这些接口和数据,可以提升业务效率、优化用户体验,为电商行业的发展注入新的活力。

热门文章

最新文章

推荐镜像

更多