Paraformer语音识别-中文-通用-16k-离线-large-长音频版,将手机号、身份证号码都识别为大写中文数字,如何将音频中的数字转为阿拉伯数字。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
要将音频中的数字从大写中文数字转换为阿拉伯数字,您需要在使用Paraformer语音识别模型时,开启**逆文本正则化(ITN, Inverse Text Normalization)**功能。以下是具体的操作步骤和配置方法:
根据知识库信息,只有v2系列模型(如paraformer-realtime-v2
)支持逆文本正则化功能。因此,请确保您使用的是支持该功能的模型。
在调用Paraformer语音识别API时,您需要通过参数配置来启用ITN功能。以下是具体的参数设置方法:
from dashscope.audio.asr import RecognitionParam
# 创建参数配置对象
param = RecognitionParam.builder() \
.model("paraformer-realtime-v2") \ # 确保使用支持ITN的模型
.format("pcm") \ # 音频格式,根据实际音频选择
.sample_rate(16000) \ # 音频采样率,需与音频一致
.parameter("inverse_text_normalization_enabled", True) \ # 开启ITN功能
.build()
import com.alibaba.dashscope.audio.asr.RecognitionParam;
// 创建参数配置对象
RecognitionParam param = RecognitionParam.builder()
.model("paraformer-realtime-v2") // 确保使用支持ITN的模型
.format("pcm") // 音频格式,根据实际音频选择
.sampleRate(16000) // 音频采样率,需与音频一致
.parameters(Map.of(
"inverse_text_normalization_enabled", true // 开启ITN功能
))
.build();
在完成参数配置后,按照以下步骤发送音频流或文件进行识别:
wav
、mp3
等),并通过URL方式上传文件。开启ITN功能后,识别结果中的中文数字(如“壹佰贰拾叁”)将被自动转换为阿拉伯数字(如“123”)。请检查返回的识别结果是否符合预期。
paraformer-realtime-v2
或paraformer-v2
。如果您当前使用的模型不支持该功能,请升级到支持的模型版本。通过以上步骤,您可以成功将音频中的中文数字转换为阿拉伯数字。