智能语音交互的搜索结果_热门_第19页-阿里云开发者社区

周周的奇妙编程

|

博文

阿里通义实验室开源了全新的音频基座大模型FunAudioLLM，包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测，支持50余种语言，中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成，只需3-10秒原始音频即可克隆音色，并支持跨语言合成。FunAudioLLM的应用场景广泛，包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示，其生成的语音自然流畅，支持定制化及高级情绪控制，超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。

# 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 搜索推荐 # 语音技术 # Windows

1941623231718325

|

博文

智能语音助手的技术原理与实现

【7月更文挑战第31天】智能语音助手的技术原理与实现涉及语音识别、自然语言处理、知识图谱以及多模态交互等多个方面。随着人工智能技术的不断发展和创新，智能语音助手将更加智能化、高效化和普适化，为我们的生活带来更加便捷和丰富的体验。

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 语音技术 # 知识图谱 # 智能硬件

AI之家

|

博文

【深度学习】深度学习基本概念、工作原理及实际应用案例

深度学习是一种机器学习方法，它试图模拟人脑中的神经网络结构，以解决复杂的问题。深度学习的核心在于构建多层非线性处理单元（即神经元）的网络结构，这些网络可以从原始数据中自动提取特征并进行学习。

# 智能语音交互 # 自然语言处理 # 智能语音交互 # 机器学习/深度学习 # 算法 # PyTorch # TensorFlow # 算法框架/工具

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版，通过有限标量量化技术和块感知因果流匹配模型，显著提升了发音准确性、音色一致性和音质，支持多语言和流式推理，适合实时语音合成场景。

# 智能语音交互 # 人工智能 # 自然语言处理 # 人机交互 # 语音技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，适用于多种应用场景。

# 日志服务 # 智能语音交互 # 人工智能 # 监控 # 算法 # 数据挖掘 # 语音技术

AI_WX_3307623172

|

博文

语音识别（ASR）--语音转文字

音识别（Automatic Speech Recognition）是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

# 智能语音交互 # 智能语音交互 # 存储 # 移动开发 # 算法 # 前端开发 # 机器人 # 语音技术 # 数据库 # 网络架构 # Windows # 内存技术

叮叮1

|

3月前

|

博文

自动生成+语音转写，办公必备！2025年智能会议纪要10＋工具！

在当今快节奏的商业环境中，会议已成为组织沟通和决策的核心环节。然而，低效的会议管理往往导致时间浪费和信息丢失。会议纪要工具通过语音识别、智能摘要等技术，实现会议内容自动记录与结构化整理，提升会议效率与信息留存，助力企业优化知识管理与团队协作。不仅简化了传统手工记录的过程，更通过人工智能、自然语言处理等先进技术，实现了会议内容的自动捕捉、智能分析和结构化整理。这类工具已成为现代企业提升生产力、优化知识管理的重要基础设施，帮助团队从繁琐的会议记录工作中解放出来，将更多精力投入。

# 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 语音技术 # vr&ar # 数据安全/隐私保护

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 物联网 # 测试技术 # 语音技术 # Python

喜欢猪猪

|

12月前

|

博文

Spring Boot 接入大模型实战：通义千问赋能智能应用快速构建

【10月更文挑战第23天】在人工智能（AI）技术飞速发展的今天，大模型如通义千问（阿里云推出的生成式对话引擎）等已成为推动智能应用创新的重要力量。然而，对于许多开发者而言，如何高效、便捷地接入这些大模型并构建出功能丰富的智能应用仍是一个挑战。

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 自然语言处理 # Java # API # 语音技术 # Spring

nicenelly

|

问答

什么是语音识别(ASR) ?

# 视频直播 # 智能语音交互 # 自然语言处理 # 智能语音交互 # 自然语言处理 # Java # 视频直播 # API # 语音技术 # 开发工具 # Android开发 # iOS开发 # 内存技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互