在modelscope-funasr只想用端到端的asr,应该用哪个呀?
在ModelScope-FunASR中,如果您只想使用端到端的自动语音识别(ASR)功能,推荐使用 Paraformer 模型。以下是详细说明和操作建议:
Paraformer是通义实验室推出的新一代非自回归端到端语音识别模型,具有以下特点: - 高精度:大幅提高了语音识别的准确率。 - 多场景支持:适用于实时语音流识别和录音文件转写。 - 版本选择:有多个版本可供选择,越新的版本(版本号越大)效果越好。
首先,确保您已经安装了ModelScope-FunASR的相关依赖。如果尚未安装,请按照以下步骤操作: 1. 克隆代码仓库:
git clone https://github.com/alibaba-damo-academy/FunASR.git
cd FunASR
pip install -r requirements.txt
pip install funasr[clip]
Paraformer模型可以通过API或SDK调用,具体步骤如下: 1. 获取API Key:确保您已开通服务并获得API Key。 2. 安装SDK:支持Python和Java语言。例如,使用Python安装SDK:
pip install aliyun-python-sdk-core
pip install aliyun-python-sdk-nls-cloud-meta
示例代码(实时语音识别):
from funasr import AutoModel
model = AutoModel(model="paraformer", model_revision="latest")
result = model.generate(input_file="your_audio_file.wav")
print(result)
如果您对多语言支持有需求,也可以考虑 SenseVoice 模型,它专注于高精度多语言语音识别,支持超过50种语言。但对于纯中文或中英文混合的端到端ASR任务,Paraformer仍然是首选。
希望以上信息能帮助您快速上手ModelScope-FunASR的端到端ASR功能!如有进一步问题,请随时咨询。