文档备案控制台

智能语音交互

# 智能语音交互 #

1 关注

2672内容

相关子社区

ModelScope模型即服务

15093内容 6活动 3974关注

最新热门文章问答视频电子书课程训练营活动

霍格沃兹测试开发muller老师

|

博文

人工智能，应该如何测试？（五）ASR 效果测试介绍

ASR是自动语音识别技术，将语音转化为文本，涉及多学科知识。数据收集是关键，包括特定人/非特定人、词汇量大小、发音方式、方言和情感等多种类别，高质量数据成本高。ASR流程包括数据收集、标注、输入算法得到文本输出并评估。常用评估指标有字错率（WER）、字正确率及插入/删除/替换率。数据标注需严格遵循规范，工作量大，而Levenshtein库可用于自动化效果评测。在AI领域，大部分时间投入在数据处理上。

# 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 算法 # 数据处理 # 语音技术

汀丶人工智能

|

博文

|

来自： ModelScope模型即服务

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

【7月更文挑战第8天】智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 人工智能 # API # 决策智能 # 开发者 # 计算机视觉

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，适用于多种应用场景。

# 日志服务 # 智能语音交互 # 人工智能 # 监控 # 算法 # 数据挖掘 # 语音技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型，支持40种东方语言和22种中文方言，采用CTC-Attention混合架构，词错率显著低于同类模型。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # Python

刘悦的技术博客

|

博文

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # PyTorch # 语音技术 # 算法框架/工具

-编程工程师-

|

博文

开源上新｜FunASR多语言离线文件转写软件包

开源上新｜FunASR多语言离线文件转写软件包

# 智能语音交互 # 智能语音交互 # 自然语言处理 # 语音技术 # 开发者 # Docker # 容器

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

ElevenLabs推出的Text to Bark是全球首个能将文本转换为逼真狗吠声的AI模型，支持多种犬种选择并适配智能家居设备，其核心技术基于深度神经网络训练。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 编解码 # 监控 # 智能硬件

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

# 图像识别 # 智能语音交互 # 人工智能 # 文字识别 # 数据挖掘 # API # 开发者

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型，支持多语言、方言和情感表达，能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

# GPU云服务器 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术 # 异构计算 # 智能硬件

游客tqsxlcu6ie37g

|

问答

|

来自： ModelScope模型即服务

【技术揭秘】可控时延语音识别文本后处理技术

# 智能语音交互 # 机器翻译 # 智能语音交互 # 人工智能 # 自然语言处理 # 算法 # 语音技术

1

...

6

7

8

...

20

免费试用