开发者社区 ModelScope模型即服务语音文章正文

kws_util 下载不了

2024-08-23 588

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 用户在树莓派上安装了一个语音唤醒环境，并使用了CTC语音唤醒模型“小云小云”。但在执行推理时遇到了错误。已尝试安装[kws_tuil]，安装不成功，更换镜像后仍然安装失败，目前无法解决此问题。

用树莓派安装语音唤醒环境，模型是这个CTC语音唤醒-移动端-单麦-16k-小云小云，但是在推理的时候报错了。

$ conda create -n modelscope python=3.7
$ conda activate modelscope
$ pip install torch torchvision torchaudio
$ pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
$ pip install tensorboardX

上面是搭建环境的命令，中途有包冲突，解决了，在用下面代码推理的时候报错了。

用了这个代码进行推理的

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

kwsbp_16k_pipline = pipeline(
    task=Tasks.keyword_spotting,
    model='./speech_charctc_kws_phone-xiaoyun')

kws_result = kwsbp_16k_pipline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/KWS/pos_testset/kws_xiaoyunxiaoyun.wav')
print(kws_result)

然后报了下面这个错误

尝试安装【kws_tuil】

换了镜像还是报错，不知道该怎么解决了

文章标签：

智能语音交互

语音技术

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

1575484699945370

Hdnw

计算机视觉

OpenCV（三十八）：二维码检测

Hdnw

1161 0 0

云内容小助手

机器学习/深度学习自然语言处理达摩院

Modelscope 工程介绍及实战演示| 学习笔记

快速学习 Modelscope 工程介绍及实战演示

云内容小助手

3421 0 0

AI研究者手札

4月前

机器学习/深度学习人工智能监控

猪仔行为检测数据集（3700张高清标注）| YOLO实战智慧养殖与猪只健康监测

本数据集开源3700张高清标注图像，覆盖猪仔9类核心行为（饮水、进食、撞击、跪地、拱蹭、休息、站立、吮乳、踩踏），严格按YOLO格式划分训练/验证/测试集，适配YOLOv5/v8/v11，助力智慧养殖与健康监测。

AI研究者手札

522 2 2

蚝油菜花

数据采集人工智能自然语言处理

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集，包含41.25小时3-5岁儿童普通话语音数据，覆盖中国22个省级行政区，为儿童语音识别和语言发展研究提供高质量数据支持。

蚝油菜花

1555 20 21

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

技术员阿伟

3月前

存储安全 API

《QClaw配置导入的深层逻辑：99%的人都用错了这一步》

本文打破“QClaw配置导入只是点一下按钮”的普遍认知，从作者踩坑的真实经历切入，深入拆解了配置导入背后鲜为人知的技术机制。文章揭示QClaw采用增量合并而非全量覆盖的核心策略，详解敏感信息加密、自动快照等隐藏功能，对比图形界面、命令行、手动替换三种导入方式的优劣与适用场景。同时给出优化导入速度、规避版本兼容风险、保障配置安全的实用技巧，最终指出配置只是工具，只有理解其底层设计逻辑，才能真正用好别人的分享并打造专属配置。

技术员阿伟

318 1 1

蚝油菜花

数据采集人工智能数据处理

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集，包含202位75岁及以上老年人的55.53小时语音数据，涵盖16个省市的不同地域口音。

蚝油菜花

2043 5 6