文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr在使用whisper模型转录音频时，能转超过1分钟的么？

modelscope-funasr在使用whisper模型转录音频时，能转超过1分钟的么？我用demo.py测试，只能转30秒……

展开

收起

三分钟热度的鱼 2024-03-20 15:51:11 451 版权

2 条回答

写回答

取消提交回答

请看我回答~

阿里云大降价~
ModelScope-Funasr在使用whisper模型转录音频时，理论上是可以处理超过1分钟的音频的。但实际的处理能力可能受到多种因素的影响，例如硬件资源、模型架构以及环境部署等。以下是一些可能影响转录长度的因素：
1. 硬件资源：如果使用的设备缺乏足够的计算能力，比如在纯CPU模式下运行Whisper，那么转录速度会非常慢，可能导致无法完成长音频的转写。
2. 模型架构：不同的模型架构可能会影响推理速度和处理长音频的能力。Whisper是一个端到端的语音识别模型，而Funasr的具体架构可能与之不同，这可能导致在处理长音频时的性能差异。
3. 环境部署：如果环境部署不够优化，比如未能充分利用GPU加速，或者在部署过程中遇到问题，这也会影响到长音频的处理能力。
4. 输入格式：确保输入音频的格式正确，以及API调用方式符合要求，这对于成功转录长音频也是必要的。
总的来说，虽然ModelScope-Funasr的whisper模型有能力处理超过1分钟的音频，但在实际操作中可能会遇到各种限制。如果您遇到只能转录30秒的问题，可能需要检查硬件资源是否充足，环境是否优化，以及模型是否正确部署。此外，也可以考虑查找是否有相关的文档说明或社区讨论，以获取更多关于如何处理长音频的信息和技巧。
2024-03-27 18:59:40

赞同展开评论
圆不溜秋的小猫猫

可以用funasr里面的vad来切割音频。此回答整理自钉群“modelscope-funasr社区交流”

2024-03-20 16:06:54

赞同 1 展开评论

相关问答

在modelscope-funasr为什么识别的内容和音频不一致呀？

275

1

0

modelscope-funasr 可以输入音频吗而不是文件？

326

1

0

modelscope-funasr的音频情感识别，用sensevoice好还是emotion2ve？

469

0

0

modelscope-funasr实时流模式，对音频pcm的数据要求是什么呢？

581

0

0

modelscope-funasr使用离线这个推理示例音频的时候，报了错误，是为什么？

314

1

0

在modelscope-funasr当音频文件超过一个小时后，显存溢出怎么解决？

409

1

0

在modelscope-funasr中请问vad模型是只能用16k采样率的音频吗？

288

0

0

在modelscope-funasr中模型换成Whisper 会报错，不能用这个模型吗？

307

0

0

在modelscope-funasr中想保留解析长音频的功能所以只要有vad在就会影响输出结果是吗？

263

0

0

在modelscope-funasr中是否需要在转录之前,先将视频切割成许多小段落?

191

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

阿里云自然语言处理全栈对接指南：从入门到企业级集成实战

MCP 工具生态升温后，企业 AI 中台要解决什么问题？

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

从零搓一个语言模型，然后把它变成认知体的声带

相关解决方案

更多

GLM-5.2：长任务时代开源旗舰模型

OpenAI 重磅开源，快速部署GPT-OSS模型

基于 Spark 和 PyTorch 的模型训练方案

模型蒸馏：让0.6B模型媲美235B模型

一键训练模型及部署GPU共享推理服务

热门讨论

热门文章

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope的palm模型，对联生成模型训练的src_text通过什么算法确定？

使用魔搭swift对qwen-14b-chat-int8微调，官方脚本，报错

modelscope-funasr 热词如何设置？

modelscope-funasr这个 whisper 对音频长度有限制么？

下载报错ssl认证失败

关于使用ModelScope离线启动已下载过的模型时遇到的问题

ZhipuAI/Multilingual-GLM-Summarization模型仅支持python2

如何修改通义千问的system prompt，以修改自定义名字

展开全部

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

ImBD：复旦联合华南理工推出 AI 内容检测模型，快速辨别文本内容是否为 AI 生成

Jina Reader：一键将网页内容转为适合 LLM 处理的文本格式，自动抓取和清洗网页内容，支持多种输出格式

展开全部

还有其他疑问?