语音技术的搜索结果_热门_第20页-阿里云开发者社区

阿里云开发者

|

博文

速成RAG+Agent框架大模型应用搭建

本文侧重于能力总结和实操搭建部分，从大模型应用的多个原子能力实现出发，到最终串联搭建一个RAG+Agent架构的大模型应用。

# 云服务器 ECS # 自然语言处理 # 专有网络VPC # 弹性计算 # 自然语言处理 # API # 语音技术 # 开发工具

智能计算老群群

|

博文

深度剖析深度神经网络（DNN）：原理、实现与应用

本文详细介绍了深度神经网络（DNN）的基本原理、核心算法及其具体操作步骤。DNN作为一种重要的人工智能工具，通过多层次的特征学习和权重调节，实现了复杂任务的高效解决。文章通过理论讲解与代码演示相结合的方式，帮助读者理解DNN的工作机制及实际应用。

# 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 语音技术

丰宝宝

|

博文

智能语音识别技术的现状与未来发展趋势####

【10月更文挑战第21天】本文深入探讨了智能语音识别技术的发展脉络、当前主要技术特点及面临的挑战，并展望了其未来的发展趋势。通过分析传统声学模型与深度学习技术的融合、端到端建模的兴起以及多模态交互的探索，揭示了智能语音识别技术向更高精度、更强鲁棒性迈进的必然趋势。同时，文章也指出了数据隐私、噪声干扰等挑战，并提出了相应的解决方案和研究方向，为智能语音识别技术的未来发展提供了参考。 ####

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 搜索推荐 # 安全 # 语音技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Pipecat实战：5步快速构建语音与AI整合项目，创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架，专注于构建语音和多模态对话代理，支持与多种 AI 服务集成，提供实时处理能力，适用于语音助手、企业服务等场景。

# 图像识别 # 智能语音交互 # 人工智能 # 数据处理 # 语音技术 # 开发者 # Python

bruce_xiaowei

|

9月前

|

博文

HarmonyOS Next～鸿蒙AI功能开发：Core Speech Kit与Core Vision Kit的技术解析与实践

本文深入解析鸿蒙操作系统（HarmonyOS）中的Core Speech Kit与Core Vision Kit，探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互，提供语音识别、合成等功能，支持多场景应用；Core Vision Kit专注视觉处理，涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势，展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。

# 云解析DNS # 人工智能 # API # 语音技术 # 开发者 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

开源学习神器把2小时网课压成5分钟脑图！BiliNote：一键转录哔哩哔哩视频，生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote，其整合多模态AI技术实现视频内容结构化解析，支持跨平台视频源处理与本地化部署方案，提供从语音转写到智能摘要的全流程自动化能力。

# 图像识别 # 人工智能 # 前端开发 # 语音技术 # Docker # 容器

modelscope

|

1月前

|

博文

|

来自： ModelScope模型即服务

Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast，已登顶Hugging Face TTS趋势榜！

Soul AI Lab联合西工大、上交大开源SoulX-Podcast，支持中英粤川等多语种方言及副语言生成，可稳定输出超60分钟自然流畅的多人对话音频，已在Huggingface登顶TTS趋势榜。

# 人工智能 # 自然语言处理 # 语音技术

技术小达人

|

博文

案例酷 | 浙江大学：打造新型办学空间，“网上浙大2.0”让高校更高效

编者按：在实施国家教育数字化战略行动中，高等教育尤其是一流大学如何进行数字化转型，是一个重要课题。高等学校需要发挥国家战略科技力量作用，承担好高素质人才供给、高水平创新突破等重要任务，浙江大学提出“网上浙大”的建设目标，为智慧校园的移动化建设打下了良好的基础。全文约3924字，建议阅读时间10分钟。

# 存储 # 人工智能 # 安全 # 搜索推荐 # 专有云 # 大数据 # 数据处理 # 语音技术 # 云计算 # 开发者

技术小达人

|

博文

达摩院FunASR实时语音转写服务软件包发布

# 智能语音交互 # 智能语音交互 # 达摩院 # Java # 大数据 # 语音技术 # 开发者

AI之家

|

博文

【深度学习】AudioLM音频生成模型概述及应用场景，项目实践及案例分析

AudioLM（Audio Language Model）是一种基于深度学习的音频生成模型，它使用自回归或变分自回归的方法来生成连续的音频信号。这类模型通常建立在Transformer架构或者类似的序列到序列（Seq2Seq）框架上，通过学习大量音频数据中的统计规律，能够生成具有高保真度和创造性的音频片段。AudioLM模型不仅能够合成音乐、语音，还能生成自然界的声音、环境噪声等，其应用广泛，涵盖了娱乐、教育、辅助技术、内容创作等多个领域。

# 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音技术