文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr针对默认参数CHUNK_SIZE=[5,10,5]，怎么办？

modelscope-funasr针对默认参数CHUNK_SIZE=[5,10,5]，chunk_interval=10，表示客户端发送音频数据的时间间隔是60ms。服务端识别600ms的音频片段后，发送识别结果？

展开

收起

真的很搞笑 2024-02-08 12:49:39 1133 版权

阿里云 AI 助理回答

在ModelScope-FunASR中，CHUNK_SIZE 和 chunk_interval 是用于控制音频流处理的关键参数。根据您提供的信息，以下是针对默认参数的详细解释和操作逻辑：

1. 参数含义

CHUNK_SIZE=[5,10,5]
- 表示音频数据被分割为三个阶段的块大小（单位：帧）。
- 第一阶段：5帧
- 第二阶段：10帧
- 第三阶段：5帧
- 这种分块策略通常用于动态调整音频流的处理粒度，以平衡实时性和识别精度。
chunk_interval=10
- 表示客户端每隔 10ms 发送一次音频数据到服务端。
- 这是音频流的时间间隔，决定了服务端接收数据的频率。
服务端识别600ms音频片段后发送结果
- 服务端会累积接收到的音频数据，直到达到 600ms 的音频片段长度，然后进行语音识别并返回结果。
- 这意味着服务端需要接收 600ms ÷ 10ms = 60次 数据传输后才会触发一次识别。

2. 工作流程

以下是基于上述参数的工作流程： 1. 客户端发送音频数据
- 客户端按照 10ms 的时间间隔（chunk_interval=10）将音频数据分块发送到服务端。 - 每次发送的数据量由 CHUNK_SIZE 决定，具体为 [5,10,5] 帧。

服务端累积音频数据
- 服务端接收到客户端发送的音频数据后，会将其累积存储，直到达到 600ms 的音频片段长度。
语音识别与结果返回
- 当累积的音频数据达到 600ms 时，服务端会对该片段进行语音识别，并将识别结果返回给客户端。

3. 重要说明

实时性与延迟
- 由于服务端需要累积 600ms 的音频数据才能进行识别，因此整个系统的延迟至少为 600ms。
- 如果对实时性要求较高，可以调整 chunk_interval 或减少累积的音频片段长度。
参数调整建议
- 如果希望降低延迟，可以适当减少累积的音频片段长度（如从600ms降低到400ms）。
- 如果希望提高识别精度，可以增加累积的音频片段长度或调整 CHUNK_SIZE 的分块策略。

4. 总结

在默认参数下，客户端以 10ms 的时间间隔发送音频数据，服务端累积 600ms 的音频片段后进行识别并返回结果。这种设计在实时性和识别精度之间取得了平衡，但用户可以根据实际需求调整相关参数以优化性能。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

modelscope-funasr够支持直接在automodel类使用附加vad模型的参数吗？

369

0

0

ModelScope中生成比如几千个不同声音的tts，都的自己训练模型，可以调节参数去控制吗？

217

1

0

ModelScope微调qwen2不同参数的模型，分别需要的最低硬件要求是多少？

343

1

0

调整ModelScope哪些参数可以让它精确返回数据集的内容，而不掺杂其它自己生成的内容？

193

1

0

請問ModelScope有命令參數可以直接基於這個模型做二次調優嗎？

241

1

0

ModelScope中，点击保存配置一直提示请校验配置参数格式，怎么办？

198

0

0

用swift推理训练后的ModelScope模型，参数里model stype是不是就不需要？

265

1

0

"gpu_memory_utilization 这个ModelScope参数的具体意思是啥？"

1400

1

0

在modelscope-funasr这么写参数为啥会报错？

508

1

0

ModelScope中，把日志保存间隔时间参数调短吗？

164

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

阿里云自然语言处理全栈对接指南：从入门到企业级集成实战

MCP 工具生态升温后，企业 AI 中台要解决什么问题？

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

从零搓一个语言模型，然后把它变成认知体的声带

热门讨论

热门文章

如何下载llama模型到本地？

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

modelscope-funasr这个长音频版本，我生成的还是没有标点，为什么？

modelscope-funasr 热词如何设置？

modelscope-funasr这里在启动时，怎么让它不启动ssl呢？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

部署funasr-sdk-cpu-0.4.7，无法切换vad为8k模型，提示不存在v2.0.6版本

modelscope-funasr针对默认参数CHUNK_SIZE=[5,10,5]，怎么办？

modelscope-funasr的asr，itn，标点这几个模块串起来的例子有吗，流式运行？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

展开全部

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

语义压缩，才是提示词工程的底层心法

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

从零搓一个语言模型，然后把它变成认知体的声带

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

展开全部

还有其他疑问?