Transformers 4.37 中文文档(六十五)(1)https://developer.aliyun.com/article/1564130
ConditionalDetrModel
class transformers.ConditionalDetrModel
( config: ConditionalDetrConfig )
参数
config
(ConditionalDetrConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。
裸的 Conditional DETR 模型(由骨干和编码器-解码器 Transformer 组成),输出原始隐藏状态,没有特定的头部。
此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
此模型还是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。
forward
( pixel_values: FloatTensor pixel_mask: Optional = None decoder_attention_mask: Optional = None encoder_outputs: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrModelOutput or tuple(torch.FloatTensor)
参数
pixel_values
(形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
)— 像素值。默认情况下将忽略填充。
可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 ConditionalDetrImageProcessor.call
()。pixel_mask
(形状为(batch_size, height, width)
的torch.LongTensor
,可选)— 避免在填充像素值上执行注意力的掩码。掩码值选在[0, 1]
中:
- 对于真实的像素(即“未遮罩”),
- 对于填充的像素(即“遮罩”),值为 0。
- 什么是注意力掩码?
decoder_attention_mask
(形状为(batch_size, num_queries)
的torch.FloatTensor
,可选)— 默认情况下不使用。可用于遮罩对象查询。encoder_outputs
(tuple(tuple(torch.FloatTensor)
, optional) — 元组包括(last_hidden_state
, optional:hidden_states
, optional:attentions
)last_hidden_state
形状为(batch_size, sequence_length, hidden_size)
,是编码器最后一层的隐藏状态序列。用于解码器的交叉注意力。inputs_embeds
(torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 可选地,您可以选择直接传递图像的扁平化表示,而不是传递骨干网络和投影层的输出的扁平化特征图。decoder_inputs_embeds
(torch.FloatTensor
of shape(batch_size, num_queries, hidden_size)
, optional) — 可选地,您可以选择直接传递一个嵌入表示,而不是用零张量初始化查询。output_attentions
(bool
, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。output_hidden_states
(bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。return_dict
(bool
, optional) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrModelOutput
或tuple(torch.FloatTensor)
一个transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrModelOutput
或一个torch.FloatTensor
元组(如果传递return_dict=False
或config.return_dict=False
)包含各种元素,取决于配置(ConditionalDetrConfig)和输入。
last_hidden_state
(torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
) — 模型解码器最后一层的隐藏状态序列。decoder_hidden_states
(tuple(torch.FloatTensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 解码器隐藏状态的元组,形状为(batch_size, sequence_length, hidden_size)
,包括每一层的输出和初始嵌入输出。decoder_attentions
(tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 解码器的注意力权重元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。cross_attentions
(tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 解码器交叉注意力层的注意力权重元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。encoder_last_hidden_state
(torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 模型编码器最后一层的隐藏状态序列。encoder_hidden_states
(tuple(torch.FloatTensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 编码器隐藏状态的元组,形状为(batch_size, sequence_length, hidden_size)
,包括每一层的输出和初始嵌入输出。encoder_attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。intermediate_hidden_states
(torch.FloatTensor
,形状为(config.decoder_layers, batch_size, sequence_length, hidden_size)
,可选,当config.auxiliary_loss=True
时返回)— 中间解码器激活,即每个解码器层的输出,每个都经过了 layernorm。
ConditionalDetrModel 的前向方法,覆盖了 __call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用 Module
实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, AutoModel >>> from PIL import Image >>> import requests >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> image_processor = AutoImageProcessor.from_pretrained("microsoft/conditional-detr-resnet-50") >>> model = AutoModel.from_pretrained("microsoft/conditional-detr-resnet-50") >>> # prepare image for the model >>> inputs = image_processor(images=image, return_tensors="pt") >>> # forward pass >>> outputs = model(**inputs) >>> # the last hidden states are the final query embeddings of the Transformer decoder >>> # these are of shape (batch_size, num_queries, hidden_size) >>> last_hidden_states = outputs.last_hidden_state >>> list(last_hidden_states.shape) [1, 300, 256]
ConditionalDetrForObjectDetection
class transformers.ConditionalDetrForObjectDetection
( config: ConditionalDetrConfig )
参数
config
(ConditionalDetrConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。
CONDITIONAL_DETR 模型(由骨干和编码器-解码器 Transformer 组成),在顶部具有用于诸如 COCO 检测等任务的目标检测头。
此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
此模型也是 PyTorch torch.nn.Module 的子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。
forward
( pixel_values: FloatTensor pixel_mask: Optional = None decoder_attention_mask: Optional = None encoder_outputs: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrObjectDetectionOutput or tuple(torch.FloatTensor)
参数
pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。默认情况下将忽略填充。
可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 ConditionalDetrImageProcessor.call
()。pixel_mask
(torch.LongTensor
,形状为(batch_size, height, width)
,可选) — 用于避免在填充像素值上执行注意力的掩码。掩码值选在[0, 1]
:
- 1 表示真实像素(即
未被掩码
), - 0 表示填充像素。
- 什么是注意力掩码?
decoder_attention_mask
(torch.FloatTensor
,形状为(batch_size, num_queries)
,可选) — 默认情况下不使用。可用于屏蔽对象查询。encoder_outputs
(tuple(tuple(torch.FloatTensor)
,可选) — 元组包括(last_hidden_state
,可选:hidden_states
,可选:attentions
)last_hidden_state
形状为(batch_size, sequence_length, hidden_size)
,可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。inputs_embeds
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递图像的扁平化表示,而不是传递扁平化特征图(骨干网络输出+投影层的输出)。decoder_inputs_embeds
(torch.FloatTensor
,形状为(batch_size, num_queries, hidden_size)
,可选) — 可选地,您可以选择直接传递一个嵌入表示,而不是用零张量初始化查询。output_attentions
(bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
,可选) — 是否返回一个 ModelOutput 而不是一个普通元组。labels
(List[Dict]
,长度为(batch_size,)
,可选) — 用于计算二部匹配损失的标签。字典列表,每个字典至少包含以下 2 个键:‘class_labels’和‘boxes’(分别是批次中图像的类别标签和边界框)。类别标签本身应该是长度为‘图像中边界框数量’的torch.LongTensor
,而边界框是形状为‘图像中边界框数量,4’的torch.FloatTensor
。
返回
transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrObjectDetectionOutput
或tuple(torch.FloatTensor)
一个transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrObjectDetectionOutput
或一个torch.FloatTensor
元组(如果传递了return_dict=False
或config.return_dict=False
时)包含各种元素,这取决于配置(ConditionalDetrConfig)和输入。
loss
(torch.FloatTensor
,形状为(1,)
,可选,当提供labels
时返回) — 总损失,作为类别预测的负对数似然(交叉熵)和边界框损失的线性组合。后者被定义为 L1 损失和广义尺度不变 IoU 损失的线性组合。loss_dict
(Dict
,可选) — 包含各个损失的字典。用于记录。logits
(torch.FloatTensor
,形状为(batch_size, num_queries, num_classes + 1)
) — 所有查询的分类 logits(包括无对象)。pred_boxes
(torch.FloatTensor
,形状为(batch_size, num_queries, 4)
) — 所有查询的归一化框坐标,表示为(中心 _x,中心 _y,宽度,高度)。这些值在[0, 1]范围内归一化,相对于批次中每个单独图像的大小(忽略可能的填充)。您可以使用 post_process_object_detection()来检索未归一化的边界框。auxiliary_outputs
(list[Dict]
,可选) — 可选,仅在激活辅助损失(即config.auxiliary_loss
设置为True
)并提供标签时返回。这是一个包含每个解码器层的上述两个键(logits
和pred_boxes
)的字典列表。last_hidden_state
(形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选)- 模型解码器最后一层的隐藏状态序列。decoder_hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回)- 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于嵌入的输出 + 一个用于每个层的输出)。解码器在每个层的输出以及初始嵌入输出的隐藏状态。decoder_attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)的注意力权重。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。cross_attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)的注意力权重。解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。encoder_last_hidden_state
(形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选)- 模型编码器最后一层的隐藏状态序列。encoder_hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回)- 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于嵌入的输出 + 一个用于每个层的输出)。编码器在每个层的输出以及初始嵌入输出的隐藏状态。encoder_attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)的注意力权重。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
ConditionalDetrForObjectDetection 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, AutoModelForObjectDetection >>> from PIL import Image >>> import requests >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> image_processor = AutoImageProcessor.from_pretrained("microsoft/conditional-detr-resnet-50") >>> model = AutoModelForObjectDetection.from_pretrained("microsoft/conditional-detr-resnet-50") >>> inputs = image_processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> # convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax) >>> target_sizes = torch.tensor([image.size[::-1]]) >>> results = image_processor.post_process_object_detection(outputs, threshold=0.5, target_sizes=target_sizes)[ ... 0 ... ] >>> for score, label, box in zip(results["scores"], results["labels"], results["boxes"]): ... box = [round(i, 2) for i in box.tolist()] ... print( ... f"Detected {model.config.id2label[label.item()]} with confidence " ... f"{round(score.item(), 3)} at location {box}" ... ) Detected remote with confidence 0.833 at location [38.31, 72.1, 177.63, 118.45] Detected cat with confidence 0.831 at location [9.2, 51.38, 321.13, 469.0] Detected cat with confidence 0.804 at location [340.3, 16.85, 642.93, 370.95] Detected remote with confidence 0.683 at location [334.48, 73.49, 366.37, 190.01] Detected couch with confidence 0.535 at location [0.52, 1.19, 640.35, 475.1]
ConditionalDetrForSegmentation
class transformers.ConditionalDetrForSegmentation
( config: ConditionalDetrConfig )
参数
config
(ConditionalDetrConfig)- 模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
CONDITIONAL_DETR 模型(由骨干和编码器-解码器 Transformer 组成),顶部带有分割头,用于诸如 COCO 全景等任务。
这个模型继承自 PreTrainedModel。查看超类文档以了解库实现的所有模型的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以了解所有与一般用法和行为相关的事项。
forward
( pixel_values: FloatTensor pixel_mask: Optional = None decoder_attention_mask: Optional = None encoder_outputs: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrSegmentationOutput or tuple(torch.FloatTensor)
参数
pixel_values
(形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
)— 像素值。默认情况下将忽略填充。
可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 ConditionalDetrImageProcessor.call
()。pixel_mask
(形状为(batch_size, height, width)
的torch.LongTensor
,可选)— 用于避免在填充像素值上执行注意力的掩码。掩码值选在[0, 1]
之间:
- 1 表示真实的像素(即
未被掩码
), - 0 表示填充像素(即
已被掩码
)。
- 什么是注意力掩码?
decoder_attention_mask
(形状为(batch_size, num_queries)
的torch.FloatTensor
,可选)— 默认情况下不使用。可用于掩盖对象查询。encoder_outputs
(tuple(tuple(torch.FloatTensor)
,可选)— 元组包含(last_hidden_state
,可选:hidden_states
,可选:attentions
)last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
,可选)是编码器最后一层的输出的隐藏状态序列。用于解码器的交叉注意力。inputs_embeds
(形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选)— 可选地,您可以选择直接传递一个图像的扁平化表示,而不是传递骨干网络和投影层的输出。decoder_inputs_embeds
(形状为(batch_size, num_queries, hidden_size)
的torch.FloatTensor
,可选)— 可选地,您可以选择直接传递一个嵌入表示,而不是用零张量初始化查询。output_attentions
(bool
,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
,可选)— 是否返回 ModelOutput 而不是普通元组。labels
(长度为(batch_size,)
的List[Dict]
,可选)— 用于计算二分匹配损失、DICE/F-1 损失和 Focal 损失的标签。字典列表,每个字典至少包含以下 3 个键:‘class_labels’、‘boxes’和‘masks’(分别是批次中图像的类标签、边界框和分割掩码)。类标签本身应该是长度为(图像中边界框的数量,)
的torch.LongTensor
,边界框是形状为(图像中边界框的数量, 4)
的torch.FloatTensor
,掩码是形状为(图像中边界框的数量, height, width)
的torch.FloatTensor
。
返回
transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrSegmentationOutput
或 tuple(torch.FloatTensor)
一个transformers.models.conditional_detr.modeling_conditional_detr.ConditionalDetrSegmentationOutput
或一个torch.FloatTensor
元组(如果传递return_dict=False
或config.return_dict=False
)包含各种元素,取决于配置(ConditionalDetrConfig)和输入。
loss
(torch.FloatTensor
,形状为(1,)
,optional,当提供labels
时返回) — 总损失,作为类别预测的负对数似然(交叉熵)和边界框损失的线性组合。后者被定义为 L1 损失和广义尺度不变 IoU 损失的线性组合。loss_dict
(Dict
,optional) — 包含各个损失的字典。用于记录。logits
(torch.FloatTensor
,形状为(batch_size, num_queries, num_classes + 1)
) — 所有查询的分类 logits(包括无对象)。pred_boxes
(torch.FloatTensor
,形状为(batch_size, num_queries, 4)
) — 所有查询的归一化框坐标,表示为(中心 _x,中心 _y,宽度,高度)。这些值在[0, 1]范围内归一化,相对于批处理中每个单独图像的大小(忽略可能的填充)。您可以使用 post_process_object_detection()来检索未归一化的边界框。pred_masks
(torch.FloatTensor
,形状为(batch_size, num_queries, height/4, width/4)
) — 所有查询的分割掩模 logits。另请参阅 post_process_semantic_segmentation()或 post_process_instance_segmentation()post_process_panoptic_segmentation()分别评估语义、实例和全景分割掩模。auxiliary_outputs
(list[Dict]
,optional) — 可选,仅在激活辅助损失(即config.auxiliary_loss
设置为True
)并提供标签时返回。这是一个包含每个解码器层的上述两个键(logits
和pred_boxes
)的字典列表。last_hidden_state
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,optional) — 模型解码器最后一层的隐藏状态序列。decoder_hidden_states
(tuple(torch.FloatTensor)
,optional,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组。解码器在每一层输出的隐藏状态加上初始嵌入输出。decoder_attentions
(tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。cross_attentions
(tuple(torch.FloatTensor)
,optional,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组。解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。encoder_last_hidden_state
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 模型编码器最后一层的隐藏状态序列。encoder_hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回)— 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于嵌入的输出 + 一个用于每一层的输出)。编码器在每一层输出的隐藏状态加上初始嵌入输出。encoder_attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或者当config.output_attentions=True
时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
ConditionalDetrForSegmentation 的前向方法,覆盖了 __call__
特殊方法。
虽然前向传递的步骤需要在这个函数内定义,但应该在此之后调用 Module
实例,而不是这个函数,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> import io >>> import requests >>> from PIL import Image >>> import torch >>> import numpy >>> from transformers import ( ... AutoImageProcessor, ... ConditionalDetrConfig, ... ConditionalDetrForSegmentation, ... ) >>> from transformers.image_transforms import rgb_to_id >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> image_processor = AutoImageProcessor.from_pretrained("microsoft/conditional-detr-resnet-50") >>> # randomly initialize all weights of the model >>> config = ConditionalDetrConfig() >>> model = ConditionalDetrForSegmentation(config) >>> # prepare image for the model >>> inputs = image_processor(images=image, return_tensors="pt") >>> # forward pass >>> outputs = model(**inputs) >>> # Use the `post_process_panoptic_segmentation` method of the `image_processor` to retrieve post-processed panoptic segmentation maps >>> # Segmentation results are returned as a list of dictionaries >>> result = image_processor.post_process_panoptic_segmentation(outputs, target_sizes=[(300, 500)]) >>> # A tensor of shape (height, width) where each value denotes a segment id, filled with -1 if no segment is found >>> panoptic_seg = result[0]["segmentation"] >>> # Get prediction score and segment_id to class_id mapping of each segment >>> panoptic_segments_info = result[0]["segments_info"]
Transformers 4.37 中文文档(六十五)(3)https://developer.aliyun.com/article/1564132