智能语音交互的搜索结果_热门_第15页-阿里云开发者社区

技术员阿伟

|

9月前

|

博文

鸿蒙Next系统通过丰富方言语音数据、优化语音识别模型、引入语音合成技术及用户反馈机制，大幅提升对不同方言和口音的识别能力。具体措施包括多渠道收集方言数据、建立动态数据库、采用深度学习算法、实现多任务学习与对抗训练、生成标准方言样本，并结合硬件如麦克风阵列技术优化语音输入质量。这些综合手段确保了语音交互的准确性和实时性，为用户提供更智能、便捷的服务。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 语音技术

ModelScope内容运营小助手

|

11月前

|

博文

基于开源技术的数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s

魔搭社区最近上线了基于开源技术的数字人实时对话demo，无需预训练即可使用自定义的数字人形象进行实时对话，支持语音输入和实时对话。

# 虚拟数字人 # 智能语音交互 # 智能语音交互 # API # 语音技术 # 开发者 # 流计算 # UED

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

# 智能语音交互 # 人工智能 # 自然语言处理 # API # 语音技术 # 智能硬件

-编程工程师-

|

博文

技术开源｜FunASR升级第三代热词方案

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 算法 # 语音技术 # 开发者

-编程工程师-

|

博文

开源上新｜FunASR多语言离线文件转写软件包

# 智能语音交互 # 智能语音交互 # 自然语言处理 # 语音技术 # 开发者 # Docker # 容器

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

RealtimeSTT 是一款开源的实时语音转文本库，支持低延迟应用，具备语音活动检测、唤醒词激活等功能，适用于语音助手、实时字幕等场景。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # 异构计算

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

# 图像识别 # 智能语音交互 # 人工智能 # 文字识别 # 数据挖掘 # API # 开发者

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具，能够实时将语音转换为文本，并自动清理和优化文本内容，适用于会议记录、写作辅助等多种场景。

# 智能语音交互 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

以山向海

|

博文

人工智能语音转文字（Automatic Speech Recognition, ASR）

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 边缘计算 # 自然语言处理 # 语音技术

源码星辰

|

博文

语音识别和语音合成技术

语音识别和语音生成是人工智能的重要分支，旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展，语音识别和生成技术在近年来取得了显著进展，并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用，并探讨其未来的发展趋势。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 大数据 # 语音技术 # 智能硬件

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互