Transformers 4.37 中文文档(八十五)(1)https://developer.aliyun.com/article/1563260
CLIPSegForImageSegmentation
class transformers.CLIPSegForImageSegmentation
( config: CLIPSegConfig )
参数
config
(CLIPSegConfig)- 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
CLIPSeg 模型在顶部使用基于 Transformer 的解码器进行零样本和一样本图像分割。
这个模型是 PyTorch 的torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward
( input_ids: Optional = None pixel_values: Optional = None conditional_pixel_values: Optional = None conditional_embeddings: Optional = None attention_mask: Optional = None position_ids: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.clipseg.modeling_clipseg.CLIPSegImageSegmentationOutput or tuple(torch.FloatTensor)
参数
input_ids
(形状为(batch_size, sequence_length)
的torch.LongTensor
)- 词汇表中输入序列标记的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call
()。
什么是输入 ID?attention_mask
(形状为(batch_size, sequence_length)
的torch.Tensor
,可选)- 避免在填充标记索引上执行注意力的掩码。选择在[0, 1]
中的掩码值:
- 1 表示未被
masked
的标记。 - 0 表示被
masked
的标记。
- 注意力蒙版是什么?
position_ids
(形状为(batch_size, sequence_length)
的torch.LongTensor
,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]
。
位置 ID 是什么?pixel_values
(形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
)— 像素值。默认情况下将忽略填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参见 CLIPImageProcessor.call
()。return_loss
(bool
,可选)— 是否返回对比损失。output_attentions
(bool
,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions
。output_hidden_states
(bool
,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。return_dict
(bool
,可选)— 是否返回 ModelOutput 而不是普通元组。labels
(形状为(batch_size,)
的torch.LongTensor
,可选)— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。
返回
transformers.models.clipseg.modeling_clipseg.CLIPSegImageSegmentationOutput
或tuple(torch.FloatTensor)
一个transformers.models.clipseg.modeling_clipseg.CLIPSegImageSegmentationOutput
或一个torch.FloatTensor
元组(如果传递了return_dict=False
或当config.return_dict=False
时),包含根据配置()和输入的不同元素。
loss
(形状为(1,)
的torch.FloatTensor
,可选,当return_loss
为True
时返回)— 图像文本相似性的对比损失。…vision_model_output
(BaseModelOutputWithPooling
)— CLIPSegVisionModel 的输出。
CLIPSegForImageSegmentation 的前向方法,覆盖了__call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例:
>>> from transformers import AutoProcessor, CLIPSegForImageSegmentation >>> from PIL import Image >>> import requests >>> processor = AutoProcessor.from_pretrained("CIDAS/clipseg-rd64-refined") >>> model = CLIPSegForImageSegmentation.from_pretrained("CIDAS/clipseg-rd64-refined") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> texts = ["a cat", "a remote", "a blanket"] >>> inputs = processor(text=texts, images=[image] * len(texts), padding=True, return_tensors="pt") >>> outputs = model(**inputs) >>> logits = outputs.logits >>> print(logits.shape) torch.Size([3, 352, 352])
CLVP
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/clvp
概述
CLVP(对比语言-声音预训练变压器)模型由 James Betker 在通过缩放实现更好的语音合成中提出。
论文摘要如下:
近年来,图像生成领域已经通过自回归变压器和 DDPMs 的应用而发生了革命。这些方法将图像生成过程建模为逐步的概率过程,并利用大量计算和数据来学习图像分布。提高性能的这种方法不一定局限于图像。本文描述了一种将图像生成领域的进展应用于语音合成的方法。结果是 TorToise - 一种富有表现力的、多声音的文本到语音系统。
该模型由Susnato Dhar贡献。原始代码可在此处找到。
使用提示
- CLVP 是 Tortoise TTS 模型的一个重要部分。
- CLVP 可用于将不同生成的语音候选与提供的文本进行比较,并将最佳语音标记转发到扩散模型。
- 强烈建议使用
ClvpModelForConditionalGeneration.generate()
方法进行龟速使用。 - 请注意,CLVP 模型期望音频采样率为 22.05 kHz,而其他音频模型期望为 16 kHz。
简要说明:
- ClvpTokenizer 对文本输入进行标记化处理,而 ClvpFeatureExtractor 从所需音频中提取对数梅尔频谱图。
ClvpConditioningEncoder
获取这些文本标记和音频表示,并将它们转换为在文本和音频上进行条件化的嵌入。- ClvpForCausalLM 使用这些嵌入来生成多个语音候选。
- 每个语音候选通过语音编码器(ClvpEncoder)传递,将它们转换为矢量表示,文本编码器(ClvpEncoder)将文本标记转换为相同的潜在空间。
- 最后,我们将每个语音向量与文本向量进行比较,以查看哪个语音向量与文本向量最相似。
ClvpModelForConditionalGeneration.generate()
将上述所有逻辑压缩为一个方法。
示例:
>>> import datasets >>> from transformers import ClvpProcessor, ClvpModelForConditionalGeneration >>> # Define the Text and Load the Audio (We are taking an audio example from HuggingFace Hub using `datasets` library). >>> text = "This is an example text." >>> ds = datasets.load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation") >>> ds = ds.cast_column("audio", datasets.Audio(sampling_rate=22050)) >>> sample = ds[0]["audio"] >>> # Define processor and model. >>> processor = ClvpProcessor.from_pretrained("susnato/clvp_dev") >>> model = ClvpModelForConditionalGeneration.from_pretrained("susnato/clvp_dev") >>> # Generate processor output and model output. >>> processor_output = processor(raw_speech=sample["array"], sampling_rate=sample["sampling_rate"], text=text, return_tensors="pt") >>> generated_output = model.generate(**processor_output)
ClvpConfig
class transformers.ClvpConfig
( text_config = None speech_config = None decoder_config = None projection_dim = 768 logit_scale_init_value = 2.6592 initializer_factor = 1.0 **kwargs )
参数
text_config
(dict
, 可选) — 用于初始化 CLVP 文本编码器的配置选项字典。speech_config
(dict
, 可选) — 用于初始化 CLVP 语音编码器的配置选项字典。decoder_config
(dict
, 可选) — 用于初始化 ClvpDecoderConfig 的配置选项字典。projection_dim
(int
, 可选, 默认为 768) — 文本和语音投影层的维度。logit_scale_init_value
(float
, 可选, 默认为 2.6592) — logit_scale参数的初始值。默认值根据原始 CLVP 实现使用。initializer_factor
(float
, 可选, 默认为 1.0) — 用于初始化所有权重矩阵的因子(应保持为 1.0,用于内部初始化测试)。kwargs
(可选) — 关键字参数字典。
ClvpConfig 是用于存储 ClvpModelForConditionalGeneration 配置的类。它用于根据指定的参数实例化 CLVP 模型,定义文本模型、语音模型和解码器模型配置。使用默认值实例化配置将产生类似于 CLVP susnato/clvp_dev 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import ClvpConfig, ClvpModelForConditionalGeneration >>> # Initializing a ClvpConfig with susnato/clvp_dev style configuration >>> configuration = ClvpConfig() >>> # Initializing a ClvpModelForConditionalGeneration (with random weights) from the susnato/clvp_dev style configuration >>> model = ClvpModelForConditionalGeneration(configuration) >>> # Accessing the model configuration >>> configuration = model.config >>> # We can also initialize a CLVPConfig from a CLVPTextConfig, CLVPSpeechConfig and a CLVPAutoRegressiveConfig >>> from transformers import ClvpEncoderConfig, ClvpDecoderConfig >>> # Initializing a CLVP text, CLVP speech and CLVP decoder configuration >>> config_text = ClvpEncoderConfig() >>> config_speech = ClvpEncoderConfig() >>> decoder_config = ClvpDecoderConfig() >>> config = ClvpConfig.from_sub_model_configs(config_text, config_speech, decoder_config)
from_sub_model_configs
( text_config: ClvpEncoderConfig speech_config: ClvpEncoderConfig decoder_config: ClvpDecoderConfig **kwargs ) → export const metadata = 'undefined';ClvpConfig
参数
text_config
(ClvpEncoderConfig
) — 类型为 ClvpEncoderConfig 的文本模型配置。speech_config
(ClvpEncoderConfig
) — 类型为 ClvpEncoderConfig 的语音模型配置。decoder_config
(ClvpDecoderConfig
) — 类型为 ClvpDecoderConfig 的解码器模型配置。
返回
ClvpConfig
配置对象的一个实例
从 CLVP 文本模型配置、CLVP 语音模型配置和 CLVP 解码器模型配置实例化一个 ClvpConfig(或派生类)。
ClvpEncoderConfig
class transformers.ClvpEncoderConfig
( vocab_size = 256 hidden_size = 768 intermediate_size = 1536 projection_dim = 768 num_hidden_layers = 20 num_attention_heads = 12 hidden_act = 'gelu' layer_norm_eps = 1e-05 attention_dropout = 0.1 dropout = 0.1 use_rotary_embedding = True use_attention_bias = False summary_type = 'mean' initializer_factor = 1.0 bos_token_id = 255 eos_token_id = 0 **kwargs )
参数
vocab_size
(int
, optional, defaults to 256) — CLVP 编码器模型的词汇表大小。hidden_size
(int
, optional, defaults to 768) — 编码器层和池化层的维度。intermediate_size
(int
, optional, defaults to 1536) — Transformer 编码器中“中间”(即前馈)层的维度。projection_dim
(int
, optional, defaults to 768) — 投影向量的维度。num_hidden_layers
(int
, optional, defaults to 20) — Transformer 编码器中的隐藏层数。num_attention_heads
(int
, optional, defaults to 12) — Transformer 编码器中每个注意力层的注意力头数。hidden_act
(str
orfunction
, optional, defaults to"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"selu"
、"gelu_new"
和"quick_gelu"
。layer_norm_eps
(float
, optional, defaults to 1e-05) — 层归一化层使用的 epsilon。attention_dropout
(float
, optional, defaults to 0.1) — 注意力概率的 dropout 比率。dropout
(float
, optional, defaults to 0.1) —ClvpEncoderMLP
中前馈层的 dropout 比率。use_rotary_embedding
(bool
, optional, defaults toTrue
) — 是否使用旋转嵌入。use_attention_bias
(bool
, optional, defaults toFalse
) — 在自注意力期间是否使用 Query、Key 和 Value 层中的偏置。summary_type
(str
, optional, defaults to"mean"
) — 从 last_hidden_state 获取 pooler_output 的策略。支持"last"
、"first"
、"mean"
和"cls_index"
。initializer_factor
(float
, optional, 默认为 1.0) — 用于初始化所有权重矩阵的因子(应保持为 1.0,用于内部初始化测试)。bos_token_id
(int
, optional, 默认为 255) — 序列开始标记 id。eos_token_id
(int
, optional, 默认为 0) — 序列结束标记 id。
这是用于存储 ClvpEncoder 配置的配置类。根据指定的参数实例化一个 CLVP 文本或 CLVP 语音编码器。使用默认值实例化配置将产生与 CLVP susnato/clvp_dev架构的编码器类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import ClvpEncoderConfig, ClvpEncoder >>> # Initializing a ClvpEncoderConfig with susnato/clvp_dev style configuration >>> encoder_configuration = ClvpEncoderConfig() >>> # Initializing a ClvpEncoder (with random weights) from the susnato/clvp_dev style configuration >>> model = ClvpEncoder(encoder_configuration) >>> # Accessing the model configuration >>> configuration = model.config
ClvpDecoderConfig
class transformers.ClvpDecoderConfig
( vocab_size = 8194 max_position_embeddings = 608 max_text_tokens = 404 hidden_size = 1024 num_hidden_layers = 30 num_attention_heads = 16 n_inner = None num_mel_attn_blocks = 6 activation_function = 'gelu_new' resid_pdrop = 0.1 embd_pdrop = 0.1 attention_dropout = 0.1 layer_norm_epsilon = 1e-05 initializer_range = 0.02 summary_type = 'cls_index' summary_use_proj = True summary_activation = None summary_proj_to_labels = True summary_first_dropout = 0.1 use_cache = True bos_token_id = 8192 eos_token_id = 8193 feature_size = 80 use_attention_bias = True initializer_factor = 1.0 decoder_fixing_codes = [83, 45, 45, 248] **kwargs )
参数
vocab_size
(int
, optional, 默认为 8194) — 模型的词汇表大小。max_position_embeddings
(int
, optional, 默认为 608) — 此模型可能用于的最大 mel 标记序列长度。类似于GPT2Config
中的n_positions
。max_text_tokens
(int
, optional, 默认为 404) — 此模型可能用于的文本标记的最大序列长度。类似于GPT2Config
中的n_positions
。hidden_size
(int
, optional, 默认为 1024) — 嵌入和隐藏状态的维度。num_hidden_layers
(int
, optional, 默认为 30) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, optional, 默认为 16) — Transformer 编码器中每个注意力层的注意力头数。n_inner
(int
, optional) — 内部前馈层的维度。None
将将其设置为hidden_size
的 4 倍。num_mel_attn_blocks
(int
, optional, 默认为 6) — 表示ClvpConditioningEncoder
中的自注意力层数量。activation_function
(str
, optional, 默认为"gelu_new"
) — 激活函数,可在列表["relu", "silu", "gelu", "tanh", "gelu_new"]
中选择。resid_pdrop
(float
, optional, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的丢弃概率。embd_pdrop
(float
, optional, 默认为 0.1) — 嵌入的丢弃比率。attention_dropout
(float
, optional, 默认为 0.1) — 注意力的丢弃比率。layer_norm_epsilon
(float
, optional, 默认为 1e-05) — 在层归一化层中使用的 epsilon。initializer_range
(float
, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。summary_type
(string
, optional, 默认为"cls_index"
) — 在进行序列摘要时使用的参数。必须是以下选项之一:
"last"
: 获取最后一个标记的隐藏状态(类似 XLNet)。"first"
: 获取第一个标记的隐藏状态(类似 BERT)。"mean"
: 获取所有标记的隐藏状态的平均值。"cls_index"
: 提供分类标记位置的张量(类似 GPT/GPT-2)。"attn"
: 目前未实现,使用多头注意力。
summary_use_proj
(bool
, optional, 默认为True
) — 是否在向量提取后添加投影。summary_activation
(str
, optional) — 将"tanh"
传递给输出以获得 tanh 激活,任何其他值将导致无激活。summary_proj_to_labels
(bool
, 可选, 默认为True
) — 投影输出是否应具有config.num_labels
或config.hidden_size
类别。summary_first_dropout
(float
, 可选, 默认为 0.1) — 投影和激活后要使用的丢弃比率。use_cache
(bool
, 可选, 默认为True
) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。bos_token_id
(int
, 可选, 默认为 8192) — 序列开始标记的 ID,在生成开始时使用。eos_token_id
(int
, 可选, 默认为 8193) — 序列结束标记的 ID,在方法ClvpModelForConditionalGeneration.fix_speech_decoder_output()
中用于修正解码器输出。feature_size
(int
, 可选, 默认为 80) — 提取的 mel 特征的特征维度。此值在ClvpConditioningEncoder
中使用。use_attention_bias
(bool
, 可选, 默认为True
) — 在自注意力中是否使用 Query、Key 和 Value 层的偏置。initializer_factor
(float
, 可选, 默认为 1.0) — 用于初始化所有权重矩阵的因子(应保持为 1.0,用于内部初始化测试)。decoder_fixing_codes
(list
, 可选, 默认为[83, 45, 45, 248]
) — 这些值在方法fix_speech_decoder_output
中用于修正解码器生成的输出。
这是一个配置类,用于存储 ClvpDecoder 的配置。它用于根据指定的参数实例化一个 CLVP 解码器模型,定义模型架构。使用默认值实例化配置将产生与 CLVP susnato/clvp_dev 架构的解码器部分类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。
该架构类似于 GPT2。
示例:
>>> from transformers import ClvpDecoderConfig, ClvpDecoder >>> # Initializing a ClvpDecoderConfig with susnato/clvp_dev style configuration >>> decoder_configuration = ClvpDecoderConfig() >>> # Initializing a ClvpDecoder (with random weights) from the susnato/clvp_dev style configuration >>> model = ClvpDecoder(decoder_configuration) >>> # Accessing the model configuration >>> configuration = model.config
ClvpTokenizer
class transformers.ClvpTokenizer
( vocab_file merges_file errors = 'replace' unk_token = '[UNK]' bos_token = '<|endoftext|>' eos_token = '[STOP]' pad_token = '[STOP]' add_prefix_space = False add_bos_token = False add_eos_token = False **kwargs )
参数
vocab_file
(str
) — 词汇文件的路径。merges_file
(str
) — 合并文件的路径。errors
(str
, 可选, 默认为"replace"
) — 解码字节为 UTF-8 时要遵循的范例。更多信息请参考 bytes.decode。unk_token
(str
, 可选, 默认为"[UNK]"
) — 未知标记。词汇表中没有的标记无法转换为 ID,而是设置为此标记。bos_token
(str
,optional,默认为"<|endoftext|>"
)–序列标记的开头。eos_token
(str
, 可选, 默认为"[STOP]"
) — 序列结束标记。pad_token
(str
, 可选, 默认为"[STOP]"
) — 序列的填充标记。add_prefix_space
(bool
, 可选, 默认为False
) — 是否在输入前添加一个初始空格。这允许将开头的单词视为任何其他单词。(CLVP 分词器通过前导空格检测单词的开头)。add_bos_token
(bool
, 可选, 默认为False
) — 当add_special_tokens=True
时,是否在序列前添加bos_token
。add_eos_token
(bool
, 可选, 默认为False
) — 当add_special_tokens=True
时,是否在序列末尾添加eos_token
。
构建一个 CLVP 分词器。基于字节级字节对编码。
该分词器已经训练成将空格视为标记的一部分(有点像 sentencepiece),因此一个单词将会在句子中的不同位置被编码成不同的标记。
在句子开头(无空格)或不是时,将以不同方式编码:
>>> from transformers import ClvpTokenizer >>> tokenizer = ClvpTokenizer.from_pretrained("susnato/clvp_dev") >>> tokenizer("Hello world")["input_ids"] [62, 84, 28, 2, 179, 79] >>> tokenizer(" Hello world")["input_ids"] [2, 62, 84, 28, 2, 179, 79]
通过在实例化此分词器时或在对某些文本调用时传递 add_prefix_space=True
,可以避免这种行为,但由于模型不是以这种方式进行预训练的,可能会导致性能下降。
当与 is_split_into_words=True
一起使用时,此分词器将在每个单词之前添加一个空格(甚至是第一个单词)。
此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
save_vocabulary
( save_directory: str filename_prefix: Optional = None )
ClvpFeatureExtractor
class transformers.ClvpFeatureExtractor
( feature_size = 80 sampling_rate = 22050 default_audio_length = 6 hop_length = 256 chunk_length = 30 n_fft = 1024 padding_value = 0.0 mel_norms = None return_attention_mask = False **kwargs )
参数
feature_size
(int
,可选,默认为 80)— 提取特征的特征维度。sampling_rate
(int
,可选,默认为 22050)— 音频文件应数字化的采样率,以赫兹(Hz)表示。default_audio_length
(int
,可选,默认为 6)— 原始音频的默认长度(以秒为单位)。如果在__call__
中未设置max_length
,则将自动设置为 default_audio_length *self.sampling_rate
。hop_length
(int
,可选,默认为 256)— 用于获取梅尔频率系数的 STFT 中的重叠窗口的长度。chunk_length
(int
,可选,默认为 30)— 用于修剪和填充较长或较短音频序列的sampling_rate
个样本块的最大数量。n_fft
(int
,可选,默认为 1024)— 傅立叶变换的大小。padding_value
(float
,可选,默认为 0.0)— 用于填充音频的填充值。应对应于静音。mel_norms
(长度为feature_size
的list
,可选)— 如果提供了mel_norms
,则将用于沿每个梅尔滤波器对数梅尔频谱进行归一化。return_attention_mask
(bool
,可选,默认为False
)— 是否返回注意力掩码。如果保持默认设置,将返回注意力掩码。
什么是注意力掩码?
构建一个 CLVP 特征提取器。
此特征提取器继承自 SequenceFeatureExtractor,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
此类使用自定义 numpy 实现的 Short Time Fourier Transform
从原始语音中提取对数梅尔频谱特征,该实现应与 pytorch 的 torch.stft
等效。
__call__
( raw_speech: Union sampling_rate: Optional = None truncation: bool = True pad_to_multiple_of: Optional = None return_tensors: Union = None return_attention_mask: Optional = True padding: Optional = 'max_length' max_length: Optional = None **kwargs )
参数
raw_speech
(np.ndarray
,List[float]
,List[np.ndarray]
,List[List[float]]
)— 要填充的序列或序列批次。每个序列可以是一个 numpy 数组,一个浮点值列表,一个 numpy 数组列表或一个浮点值列表的列表。必须是单声道音频,不是立体声,即每个时间步长一个浮点数。sampling_rate
(int
,可选)—raw_speech
输入的采样率。强烈建议在前向调用时传递sampling_rate
,以防止静默错误并允许自动语音识别流水线。truncation
(bool
,可选,默认为True
)— 激活截断以将输入序列截断为比 max_length 更长的输入序列。pad_to_multiple_of
(int
,可选)— 如果设置,将填充序列到提供的值的倍数。
这对于在具有计算能力>= 7.5
(Volta)的 NVIDIA 硬件上启用 Tensor Cores 或在受益于序列长度为 128 的 TPU 上使用特别有用。return_attention_mask
(bool
,可选,默认为True
) — 是否返回注意力掩码。如果保持默认设置,将返回注意力掩码。
什么是注意力掩码?return_tensors
(str
或 TensorType,可选) — 如果设置,将返回张量而不是 Python 整数列表。可接受的值为:
'tf'
: 返回 TensorFlowtf.constant
对象。'pt'
: 返回 PyTorchtorch.Tensor
对象。'np'
: 返回 Numpynp.ndarray
对象。
padding_value
(float
,默认为 0.0) — 用于填充填充值/向量的值。max_length
(int
,可选) — 输入的最大长度。
ClvpFeatureExtractor
用于从样本声音或 raw_speech
中提取各种声音特定属性,如声音的音高和音调、说话速度,甚至说话缺陷,如口吃或结巴。
首先,声音被填充或截断,使其成为 self.default_audio_length
秒长的波形,然后从中提取对数梅尔频谱图。
Transformers 4.37 中文文档(八十五)(3)https://developer.aliyun.com/article/1563262