文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasrr的autoModel里的input是有什么语音格式限制吗？

modelscope-funasrr的autoModel里的input是有什么语音格式限制吗？我用fastapi把语音文件转成bytes之后，Sensevoice里面自带的 "欢迎大家来体验达摩院推出的语音识别模型。"能识别出来，但是别的wav文件就不行。我下载到本地的sensevoice跑本地的文件都能出结果，但是fastapi上传文件就不行。

展开

收起

三分钟热度的鱼 2024-08-07 20:41:56 249 版权

1 条回答

写回答

取消提交回答

圆不溜秋的小猫猫

bytes没有音频头，funasr无法正确解析，你自己把bytes转采样点，具体，你可以去参考创空间的代码，funasr用的是三方sdk来load音频，任何sdk，也都需要音频头才能正确解析。此回答整理自钉群“modelscope-funasr社区交流”

2024-08-07 22:20:56

赞同 9 展开评论

相关问答

modelscope-funasr多线程调用AutoModel的时候出现这个，怎么解决？

478

0

0

modelscope-funasr系列，有直接输出srt格式的asr方案嘛？

353

1

0

在modelscope-funasr换了带时间戳的模型但是语音转出来的结果为什么没有时间戳呢？

441

0

0

modelscope-funasr的infer的时候input输入bytes类型，报错了，怎么解决？

222

1

0

modelscope-funasr的语音情感识别，如何离线部署？

306

0

0

modelscope-funasr有语音对话分离demo吗？

349

0

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

358

0

0

modelscope-funasr够支持直接在automodel类使用附加vad模型的参数吗？

374

0

0

modelscope-funasr这样生成的模型对语音的识别结果有没有影响，会不会降低识别率？

336

0

0

modelscope-funasr这个模型的训练语音数据以及命令词列表有开源吗？

280

0

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

Qwen-Audio-3.0-TTS 正式发布！AI 语音从 “能说话” 升级到 “会带情绪表达”

阿里云百炼Token Plan支持哪些模型？共11款AI模型，通义千问、DeepSeek、万相及GLM等模型云厂商

培训管理系统bizLearnify的 AI 智能陪练完整功能逻辑，以家电门店销售为例的剧本框架

把 AI 视频剪辑搬进浏览器：Timeline Studio 的本地优先架构与工程实践

阿里云Token Plan支持哪些AI模型？个人版和团队版有区别吗？

热门讨论

热门文章

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

modelscope-funasr 热词如何设置？

langchain中llms.Tongyi 这个模型具体调用的是哪个通义模型

modelscope-funasr基于paraformer微调了粤语试了下，效果不太理想。怎么调整？

modelscope-funasr的sensevoice还不支持热词，是吗？

gpt3,加载数据时，MsDataset.load报错

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope的palm模型，对联生成模型训练的src_text通过什么算法确定？

pipeline如何设置temperature、top_p参数？

如何修改通义千问的system prompt，以修改自定义名字

展开全部

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

语义压缩，才是提示词工程的底层心法

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

展开全部

还有其他疑问?