Transformers 4.37 中文文档(七十四)(2)https://developer.aliyun.com/article/1564203
giou_cost
(float
, optional, 默认为 2) — 广义 IoU 损失在匈牙利匹配成本中边界框的相对权重。
class transformers.YolosImageProcessor
( format: Union = <AnnotationFormat.COCO_DETECTION: 'coco_detection'> do_resize: bool = True size: Dict = None resample: Resampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: Union = 0.00392156862745098 do_normalize: bool = True image_mean: Union = None image_std: Union = None do_pad: bool = True **kwargs )
参数
format
(str
, optional, 默认为"coco_detection"
) — 注释的数据格式。为"coco_detection"
或“coco_panoptic”之一。do_resize
(bool
, optional, 默认为True
) — 控制是否将图像的(高度,宽度)维度调整为指定的size
。可以被preprocess
方法中的do_resize
参数覆盖。size
(Dict[str, int]
optional, 默认为{"shortest_edge" -- 800, "longest_edge": 1333}
): 调整大小后的图像(高度,宽度)维度。可以被preprocess
方法中的size
参数覆盖。resample
(PILImageResampling
, optional, 默认为PILImageResampling.BILINEAR
) — 如果调整图像大小,则要使用的重采样滤波器。do_rescale
(bool
, optional, 默认为True
) — 控制是否按指定比例rescale_factor
重新缩放图像。可以被preprocess
方法中的do_rescale
参数覆盖。rescale_factor
(int
orfloat
, optional, defaults to1/255
) — 如果重新缩放图像要使用的比例因子。可以被preprocess
方法中的rescale_factor
参数覆盖。do_normalize — 控制是否对图像进行归一化。可以被preprocess
方法中的do_normalize
参数覆盖。image_mean
(float
orList[float]
, optional, defaults toIMAGENET_DEFAULT_MEAN
) — 在归一化图像时使用的均值。可以是单个值或每个通道的值列表。可以被preprocess
方法中的image_mean
参数覆盖。image_std
(float
orList[float]
, optional, defaults toIMAGENET_DEFAULT_STD
) — 在归一化图像时使用的标准差值。可以是单个值或每个通道的值列表。可以被preprocess
方法中的image_std
参数覆盖。do_pad
(bool
, optional, defaults toTrue
) — 控制是否对图像进行填充以适应批次中最大的图像并创建像素掩模。可以被preprocess
方法中的do_pad
参数覆盖。
构建一个 Detr 图像处理器。
preprocess
( images: Union annotations: Union = None return_segmentation_masks: bool = None masks_path: Union = None do_resize: Optional = None size: Optional = None resample = None do_rescale: Optional = None rescale_factor: Union = None do_normalize: Optional = None image_mean: Union = None image_std: Union = None do_pad: Optional = None format: Union = None return_tensors: Union = None data_format: Union = <ChannelDimension.FIRST: 'channels_first'> input_data_format: Union = None **kwargs )
参数
images
(ImageInput
) — 要预处理的图像或图像批次。期望单个图像或像素值范围从 0 到 255 的图像批次。如果传入像素值在 0 到 1 之间的图像,请设置do_rescale=False
。annotations
(AnnotationType
orList[AnnotationType]
, optional) — 与图像或图像批次关联的注释列表。如果注释用于目标检测,注释应该是一个具有以下键的字典:
- “image_id” (
int
): 图像的 ID。 - “annotations” (
List[Dict]
): 图像的注释列表。每个注释应该是一个字典。一个图像可以没有注释,此时列表应为空。如果注释用于分割,注释应该是一个具有以下键的字典: - “image_id” (
int
): 图像的 ID。 - “segments_info” (
List[Dict]
): 图像的段列表。每个段应该是一个字典。一个图像可以没有段,此时列表应为空。 - “file_name” (
str
): 图像的文件名。
return_segmentation_masks
(bool
, optional, defaults to self.return_segmentation_masks) — 是否返回分割掩模。masks_path
(str
orpathlib.Path
, optional) — 包含分割掩模的目录路径。do_resize
(bool
, optional, defaults to self.do_resize) — 是否调整图像大小。size
(Dict[str, int]
, optional, defaults to self.size) — 调整大小后的图像尺寸。resample
(PILImageResampling
, optional, defaults to self.resample) — 调整图像大小时使用的重采样滤波器。do_rescale
(bool
, optional, defaults to self.do_rescale) — 是否重新缩放图像。rescale_factor
(float
, optional, defaults to self.rescale_factor) — 调整图像时使用的缩放因子。do_normalize
(bool
, optional, defaults to self.do_normalize) — 是否对图像进行归一化。image_mean
(float
orList[float]
, optional, defaults to self.image_mean) — 在归一化图像时使用的均值。image_std
(float
orList[float]
, optional, defaults to self.image_std) — 在归一化图像时使用的标准差。do_pad
(bool
, optional, defaults to self.do_pad) — 是否对图像进行填充。format
(str
orAnnotationFormat
, optional, defaults to self.format) — 注释的格式。return_tensors
(str
orTensorType
, optional, defaults to self.return_tensors) — 要返回的张量类型。如果为None
,将返回图像列表。data_format
(str
或ChannelDimension
,可选,默认为 self.data_format) — 图像的通道维度格式。如果未提供,则与输入图像相同。input_data_format
(ChannelDimension
或str
,可选) — 输入图像的通道维度格式。如果未设置,通道维度格式将从输入图像中推断。可以是以下之一:
"channels_first"
或ChannelDimension.FIRST
:图像以 (num_channels, height, width) 格式。"channels_last"
或ChannelDimension.LAST
:图像以 (height, width, num_channels) 格式。"none"
或ChannelDimension.NONE
:图像以 (height, width) 格式。
对图像或图像批次进行预处理,以便可以被模型使用。
pad
( images: List constant_values: Union = 0 return_pixel_mask: bool = False return_tensors: Union = None data_format: Optional = None input_data_format: Union = None )
参数
image
(np.ndarray
) — 要填充的图像。constant_values
(float
或Iterable[float]
,可选) — 如果mode
是"constant"
,则用于填充的值。return_pixel_mask
(bool
,可选,默认为True
) — 是否返回像素掩码。return_tensors
(str
或TensorType
,可选) — 要返回的张量类型。可以是以下之一:
- 未设置:返回一个
np.ndarray
列表。 TensorType.TENSORFLOW
或'tf'
:返回一个tf.Tensor
类型的批次。TensorType.PYTORCH
或'pt'
:返回一个torch.Tensor
类型的批次。TensorType.NUMPY
或'np'
:返回一个np.ndarray
类型的批次。TensorType.JAX
或'jax'
:返回一个jax.numpy.ndarray
类型的批次。
data_format
(str
或ChannelDimension
,可选) — 图像的通道维度格式。如果未提供,则与输入图像相同。input_data_format
(ChannelDimension
或str
,可选) — 输入图像的通道维度格式。如果未提供,则将被推断。
将图像批次填充到图像的底部和右侧,用零填充到批次中最大高度和宽度的大小,并可选择返回它们对应的像素掩码。
post_process_object_detection
( outputs threshold: float = 0.5 target_sizes: Union = None ) → export const metadata = 'undefined';List[Dict]
参数
outputs
(YolosObjectDetectionOutput
) — 模型的原始输出。threshold
(float
,可选) — 保留对象检测预测的分数阈值。target_sizes
(torch.Tensor
或List[Tuple[int, int]]
,可选) — 形状为(batch_size, 2)
的张量或包含批次中每个图像目标大小(height, width)
的元组列表 (Tuple[int, int]
)。如果未设置,预测将不会被调整大小。
返回
List[Dict]
一个字典列表,每个字典包含模型预测的批次中图像的分数、标签和框。
将 YolosForObjectDetection 的原始输出转换为最终的边界框,格式为 (top_left_x, top_left_y, bottom_right_x, bottom_right_y)。仅支持 PyTorch。
YolosFeatureExtractor
class transformers.YolosFeatureExtractor
( *args **kwargs )
__call__
( images **kwargs )
预处理图像或图像批次。
pad
( images: List constant_values: Union = 0 return_pixel_mask: bool = False return_tensors: Union = None data_format: Optional = None input_data_format: Union = None )
参数
image
(np.ndarray
) — 要填充的图像。constant_values
(float
或Iterable[float]
,可选) — 如果mode
是"constant"
,则用于填充的值。return_pixel_mask
(bool
,可选,默认为True
) — 是否返回像素掩码。return_tensors
(str
或TensorType
,可选) — 要返回的张量类型。可以是以下之一:
- 未设置:返回一个
np.ndarray
列表。 TensorType.TENSORFLOW
或'tf'
:返回类型为tf.Tensor
的批处理。TensorType.PYTORCH
或'pt'
:返回类型为torch.Tensor
的批处理。TensorType.NUMPY
或'np'
:返回类型为np.ndarray
的批处理。TensorType.JAX
或'jax'
:返回类型为jax.numpy.ndarray
的批处理。
data_format
(str
或ChannelDimension
,可选) — 图像的通道维度格式。如果未提供,将与输入图像相同。input_data_format
(ChannelDimension
或str
,可选) — 输入图像的通道维度格式。如果未提供,将被推断。
将图像批处理填充到图像的底部和右侧,用零填充到批处理中最大高度和宽度的大小,并可选择返回相应的像素掩码。
post_process_object_detection
( outputs threshold: float = 0.5 target_sizes: Union = None ) → export const metadata = 'undefined';List[Dict]
参数
outputs
(YolosObjectDetectionOutput
) — 模型的原始输出。threshold
(float
,可选) — 保留对象检测预测的分数阈值。target_sizes
(torch.Tensor
或List[Tuple[int, int]]
,可选) — 形状为(batch_size, 2)
的张量或包含批处理中每个图像的目标大小(height, width)
的元组列表 (Tuple[int, int]
)。如果未设置,预测将不会被调整大小。
返回
List[Dict]
一个字典列表,每个字典包含批处理中图像的预测得分、标签和框。
将 YolosForObjectDetection 的原始输出转换为最终边界框,格式为 (左上角 x、左上角 y、右下角 x、右下角 y)。仅支持 PyTorch。
YolosModel
class transformers.YolosModel
( config: YolosConfig add_pooling_layer: bool = True )
参数
config
(YolosConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。
裸 YOLOS 模型变压器输出原始隐藏状态,没有特定的头部在顶部。此模型是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward
( pixel_values: Optional = None head_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPooling or tuple(torch.FloatTensor)
参数
pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参见 YolosImageProcessor.call
()。head_mask
(torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选定在[0, 1]
中:
- 1 表示头部未被
masked
, - 0 表示头部是
masked
。
output_attentions
(bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。output_hidden_states
(bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states
。return_dict
(bool
,可选)— 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutputWithPooling 或一个torch.FloatTensor
的元组(如果传递了return_dict=False
或当config.return_dict=False
时),包括根据配置(YolosConfig)和输入的不同元素。
last_hidden_state
(形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
)— 模型最后一层的隐藏状态序列。pooler_output
(形状为(batch_size, hidden_size)
的torch.FloatTensor
)— 经过用于辅助预训练任务的层进一步处理后的序列第一个标记(分类标记)的最后一层隐藏状态。例如,对于 BERT 系列模型,这返回经过线性层和 tanh 激活函数处理后的分类标记。线性层的权重是在预训练期间从下一个句子预测(分类)目标中训练的。hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回)— 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(如果模型有嵌入层,则为嵌入的输出+每一层的输出)。
模型在每一层的输出的隐藏状态加上可选的初始嵌入输出。attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
YolosModel 的前向方法,覆盖了__call__
特殊方法。
尽管前向传递的方法需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, YolosModel >>> import torch >>> from datasets import load_dataset >>> dataset = load_dataset("huggingface/cats-image") >>> image = dataset["test"]["image"][0] >>> image_processor = AutoImageProcessor.from_pretrained("hustvl/yolos-small") >>> model = YolosModel.from_pretrained("hustvl/yolos-small") >>> inputs = image_processor(image, return_tensors="pt") >>> with torch.no_grad(): ... outputs = model(**inputs) >>> last_hidden_states = outputs.last_hidden_state >>> list(last_hidden_states.shape) [1, 3401, 384]
YolosForObjectDetection
class transformers.YolosForObjectDetection
( config: YolosConfig )
参数
config
(YolosConfig)— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。
YOLOS 模型(包含 ViT 编码器),顶部带有目标检测头,用于诸如 COCO 检测之类的任务。
这个模型是 PyTorch 的torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。
forward
( pixel_values
参数
pixel_values
(torch.FloatTensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获得。有关详细信息,请参阅 YolosImageProcessor.call
()。head_mask
(torch.FloatTensor
of shape(num_heads,)
or(num_layers, num_heads)
, optional) — 用于使自注意力模块的选定头部失效的掩码。掩码值选定在[0, 1]
范围内:
- 1 表示头部未被
masked
, - 0 表示头部被
masked
。
output_attentions
(bool
, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。labels
(List[Dict]
of len(batch_size,)
, optional) — 用于计算二分匹配损失的标签。字典列表,每个字典至少包含以下 2 个键:'class_labels'
和'boxes'
(分别是批处理中图像的类别标签和边界框)。类别标签本身应该是长度为(图像中边界框的数量,)
的torch.LongTensor
,而框是形状为(图像中边界框的数量, 4)
的torch.FloatTensor
。
返回
transformers.models.yolos.modeling_yolos.YolosObjectDetectionOutput
或tuple(torch.FloatTensor)
一个transformers.models.yolos.modeling_yolos.YolosObjectDetectionOutput
或一个元组torch.FloatTensor
(如果传递了return_dict=False
或config.return_dict=False
时)包含各种元素,取决于配置(YolosConfig)和输入。
loss
(torch.FloatTensor
of shape(1,)
, optional, 当提供labels
时返回) — 总损失,作为类别预测的负对数似然(交叉熵)和边界框损失的线性组合。后者被定义为 L1 损失和广义比例不变 IoU 损失的线性组合。loss_dict
(Dict
, optional) — 包含各个损失的字典。用于记录。logits
(torch.FloatTensor
of shape(batch_size, num_queries, num_classes + 1)
) — 所有查询的分类 logits(包括无对象)。pred_boxes
(torch.FloatTensor
of shape(batch_size, num_queries, 4)
) — 所有查询的归一化框坐标,表示为(中心 _x,中心 _y,宽度,高度)。这些值在[0, 1]范围内归一化,相对于批处理中每个单独图像的大小(忽略可能的填充)。您可以使用post_process()
来检索未归一化的边界框。auxiliary_outputs
(list[Dict]
, optional) — 可选,仅在激活辅助损失(即config.auxiliary_loss
设置为True
)并提供标签时返回。这是一个包含每个解码器层的上述两个键(logits
和pred_boxes
)的字典列表。last_hidden_state
(torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 模型解码器最后一层的隐藏状态序列。hidden_states
(tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型有嵌入层,则为嵌入的输出+每个层的输出)的形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出的隐藏状态加上可选的初始嵌入输出。attentions
(tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个)的形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
YolosForObjectDetection 的前向方法覆盖了__call__
特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module
实例,而不是在此处调用,因为前者负责运行前处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, AutoModelForObjectDetection >>> import torch >>> from PIL import Image >>> import requests >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> image_processor = AutoImageProcessor.from_pretrained("hustvl/yolos-tiny") >>> model = AutoModelForObjectDetection.from_pretrained("hustvl/yolos-tiny") >>> inputs = image_processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> # convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax) >>> target_sizes = torch.tensor([image.size[::-1]]) >>> results = image_processor.post_process_object_detection(outputs, threshold=0.9, target_sizes=target_sizes)[ ... 0 ... ] >>> for score, label, box in zip(results["scores"], results["labels"], results["boxes"]): ... box = [round(i, 2) for i in box.tolist()] ... print( ... f"Detected {model.config.id2label[label.item()]} with confidence " ... f"{round(score.item(), 3)} at location {box}" ... ) Detected remote with confidence 0.994 at location [46.96, 72.61, 181.02, 119.73] Detected remote with confidence 0.975 at location [340.66, 79.19, 372.59, 192.65] Detected cat with confidence 0.984 at location [12.27, 54.25, 319.42, 470.99] Detected remote with confidence 0.922 at location [41.66, 71.96, 178.7, 120.33] Detected cat with confidence 0.914 at location [342.34, 21.48, 638.64, 372.46]
音频模型
音频频谱变换器
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/audio-spectrogram-transformer
概述
音频频谱变换器模型是由 Yuan Gong、Yu-An Chung、James Glass 在 AST: 音频频谱变换器 中提出的。音频频谱变换器将视觉变换器应用于音频,通过将音频转换为图像(频谱图)。该模型在音频分类方面取得了最先进的结果。
该论文的摘要如下:
在过去的十年中,卷积神经网络(CNN)已被广泛采用作为端到端音频分类模型的主要构建模块,旨在学习从音频频谱到相应标签的直接映射。为了更好地捕获长距离全局上下文,最近的趋势是在 CNN 之上添加自注意机制,形成 CNN-注意混合模型。然而,目前尚不清楚是否依赖于 CNN 是必要的,以及基于注意力的神经网络是否足以在音频分类中获得良好的性能。在本文中,我们通过引入音频频谱变换器(AST)来回答这个问题,这是第一个无卷积、纯注意力的音频分类模型。我们在各种音频分类基准上评估了 AST,在这些基准上取得了新的最先进结果:在 AudioSet 上的 0.485 mAP,在 ESC-50 上的 95.6% 准确率,以及在 Speech Commands V2 上的 98.1% 准确率。
音频频谱变换器架构。摘自原始论文。
使用提示
- 在自己的数据集上微调音频频谱变换器(AST)时,建议进行输入归一化处理(确保输入的均值为 0,标准差为 0.5)。ASTFeatureExtractor 负责此操作。请注意,默认情况下它使用 AudioSet 的均值和标准差。您可以查看
ast/src/get_norm_stats.py
来查看作者如何计算下游数据集的统计信息。 - 请注意,AST 需要一个较低的学习率(作者使用比他们在 PSLA 论文 中提出的 CNN 模型小 10 倍的学习率),并且收敛速度很快,因此请为您的任务搜索一个合适的学习率和学习率调度器。
资源
一份官方 Hugging Face 和社区(由 🌎 表示)资源列表,可帮助您开始使用音频频谱变换器。
音频分类
如果您有兴趣提交资源以包含在此处,请随时提交拉取请求,我们将进行审查!资源应该理想地展示一些新内容,而不是重复现有资源。
ASTConfig
class transformers.ASTConfig
( hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 patch_size = 16 qkv_bias = True frequency_stride = 10 time_stride = 10 max_length = 1024 num_mel_bins = 128 **kwargs )
参数
hidden_size
(int
, optional, 默认为 768) — 编码器层和池化器层的维度。num_hidden_layers
(int
, optional, 默认为 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。intermediate_size
(int
, optional, 默认为 3072) — Transformer 编码器中“中间”(即前馈)层的维度。hidden_act
(str
或function
, optional, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"selu"
和"gelu_new"
。hidden_dropout_prob
(float
, optional, 默认为 0.0) — 嵌入层、编码器和池化器中所有全连接层的丢弃概率。attention_probs_dropout_prob
(float
, optional, 默认为 0.0) — 注意力概率的丢弃比例。initializer_range
(float
, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。layer_norm_eps
(float
, optional, 默认为 1e-12) — 层归一化层使用的 epsilon。patch_size
(int
, optional, 默认为 16) — 每个块的大小(分辨率)。qkv_bias
(bool
, optional, 默认为True
) — 是否为查询、键和值添加偏置。frequency_stride
(int
, optional, 默认为 10) — 在制作频谱图块时使用的频率步幅。time_stride
(int
, optional, 默认为 10) — 在制作频谱图块时使用的时间步幅。max_length
(int
, optional, 默认为 1024) — 频谱图的时间维度。num_mel_bins
(int
, optional, 默认为 128) — 频谱图的频率维度(Mel 频率箱的数量)。
这是用于存储 ASTModel 配置的配置类。它用于根据指定的参数实例化 AST 模型,定义模型架构。使用默认值实例化配置将产生类似于 AST MIT/ast-finetuned-audioset-10-10-0.4593 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import ASTConfig, ASTModel >>> # Initializing a AST MIT/ast-finetuned-audioset-10-10-0.4593 style configuration >>> configuration = ASTConfig() >>> # Initializing a model (with random weights) from the MIT/ast-finetuned-audioset-10-10-0.4593 style configuration >>> model = ASTModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
Transformers 4.37 中文文档(七十四)(4)https://developer.aliyun.com/article/1564205