智能语音交互的搜索结果_文章_第5页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Kokoro-TTS 是一款轻量级文本转语音模型，支持多语言和多语音风格生成，具备实时处理能力和低资源占用，适用于多种应用场景。

# 智能语音交互 # 人工智能 # 自然语言处理 # 并行计算 # API # 语音技术

modelscope

|

10月前

|

博文

|

来自： ModelScope模型即服务

VITA-1.5: 迈向GPT-4o级实时视频-语音交互

近期，由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频，音频，文本输入，以及音频输出。

# 智能语音交互 # 智能语音交互 # JSON # 测试技术 # 语音技术 # 数据格式 # UED

游客rajs3hal3ttfo

|

10月前

|

博文

语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能

阿里云智能语音交互产品通过WebSocket协议提供实时语音转写功能，支持长语音。音频流以Binary Frame上传，指令和事件为Text Frame。支持单声道、16 bit采样位数的PCM、WAV等格式，采样率8000Hz/16000Hz。可设置返回中间结果、添加标点、中文数字转阿拉伯数字，并支持多语言识别。服务端通过临时Token鉴权，提供外网和上海ECS内网访问URL。交互流程包括StartTranscription、StopTranscription指令及多种事件反馈。

# 云服务器 ECS # 智能语音交互 # 智能语音交互 # 弹性计算 # JSON # 自然语言处理 # 双11 # 内存技术

hw2020hw

|

10月前

|

博文

昇腾AI行业案例（七）：基于 Conformer 和 Transformer 模型的中文语音识别

欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统，将中文语音信号转换成文字，并利用开源数据集对模型效果加以验证。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 数据采集 # 人工智能 # 语音技术 # Python

技术员阿伟

|

10月前

|

博文

《鸿蒙Next中的新兴人工智能算法：适应性与性能的双重提升》

鸿蒙Next系统引入了多种新兴人工智能算法，提升智能化与效率。盘古大模型增强小艺的记忆、推理能力，支持图像识别、智能通话等；RWKV架构优化文本处理，提高准确性和连贯性；JEPA算法通过自监督学习和强化学习提升图像与语音识别；决策树结合GPU Turbo加速图形处理任务；假设驱动AI则在医疗等领域展现独特优势。这些算法推动系统不断进步，为用户提供更智能的体验。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 算法 # 语音技术 # 异构计算

技术员阿伟

|

10月前

|

博文

《鸿蒙Next：让人工智能语音交互听懂每一种方言和口音》

鸿蒙Next系统通过丰富方言语音数据、优化语音识别模型、引入语音合成技术及用户反馈机制，大幅提升对不同方言和口音的识别能力。具体措施包括多渠道收集方言数据、建立动态数据库、采用深度学习算法、实现多任务学习与对抗训练、生成标准方言样本，并结合硬件如麦克风阵列技术优化语音输入质量。这些综合手段确保了语音交互的准确性和实时性，为用户提供更智能、便捷的服务。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 算法 # 语音技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人，支持实时语音交互和多语言对话，适用于个人助理、娱乐互动和教育辅导等多种场景。

# 智能对话机器人 # 智能语音交互 # Web App开发 # 机器学习/深度学习 # 人工智能 # 机器人 # 语音技术

游客jpyzg2kj5q46s

|

10月前

|

博文

这是我设想的智慧审讯室的系统解决方案

该系统融合了案件云、脑机接口云、情绪感知云及互联网，涵盖审讯室终端。通过人脸识别验证人员信息后启动设备，利用语音转文字、情绪和脑机接口记录数据，并与其他执法网交换信息。智能云平台根据需求提供服务，如证据展示、健康监测等。系统通过OCR识别、数据搜集与分析，支持警方审讯并推送相关信息到显示器，实现智慧化审讯。

# 智能语音交互 # 文字识别 # 数据处理 # 语音技术 # Android开发 # 计算机视觉

阿里云多端低代码开发平台魔笔

|

10月前

|

博文

|

来自： ModelScope模型即服务

过年了，用魔搭+魔笔打造您的 AI 春节贺卡生成器！

本文介绍了如何获取和利用现有的大模型资源，结合魔笔低代码，低成本、高效率地打造一个 AI 春节贺卡生成器。

# 函数计算 # 云数据库 RDS MySQL 版 # 智能语音交互 # 人工智能 # 前端开发 # 关系型数据库 # API # 语音技术

阿里云开发者

|

10月前

|

博文

一段 JavaScript 代码，集成网站AI语音助手

根据本教程，只需通过白屏化的界面操作，即可快速构建一个专属的AI智能体。

# 函数计算 # 智能语音交互 # 人工智能 # JavaScript # 前端开发 # Serverless # 语音技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互