阿里云智能语音交互服务导览

简介: 阿里云智能语音交互服务导览

阿里云智能语音交互

产品介绍 & 接口文档
屏幕快照 2017-07-04 下午4.34.38.png

阿里云iDST的智能语音交互服务主要有以下几个大类:

  • 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出“能听”的应用。
  • 语音合成服务TTS :将文字转换为声音的能力快速集成,打造出“会说”的应用。
  • 自然语音处理NLU :集语义解析、智能问答、意图识别等功能于一体,让应用具备理解能力。

语音识别服务ASR:

**在线 实时 短语音识别:一句话识别

  • 支持流式和非流式的语音识别模式
  • 应用模式: 语音输入法、语音搜索、语音助手等
  • 应用领域:YunOS、支付宝语音搜索、天猫魔盒、手机淘宝、聚划算等

在线 实时 长语音识别:实时长语音识别

  • 应用领域:直播实时转写、会议记录、语音笔记

在线 非实时 长语音文件识别:录音文件识别服务

  • 支持单轨/双轨的wav格式、MP3格式的语音文件识别
  • 目前只支持8k和16k的采样率;
  • 支持普通话识别
  • 应用领域:客服质检领域等

语音合成服务TTS:

在线 实时 语音合成: 语音合成

  • 实时播报
  • 应用领域:钉钉语音电话、菜鸟物流信息播报、新闻播报

在线 实时 语音合成 批量工具: TTS批量合成工具

  • 语音合成测试、批量处理
  • 应用领域:有声小说

智能对话平台

智能对话平台: 智能对话平台

  • 智能对话平台,能够让您在这上面快速搭建自己的对话机器人。
  • 应用领域:智能客服、教育、医疗等

自然语音处理NLU:

在线 语音识别+自然语音处理: 自然语音理解

  • 聊天对话:语音助手就像一个聊天机器人,能和用户直接对话
  • 获取信息:根据用户不同的需要,可以通过语音助手来了解信息,要知天下百事,就问语音助手。
  • 操控手机:能用语音控制手机的操作,打电话、发短信,直接说“打电话给XX”或者“发短信给XX” 非常简便
  • 通过语法、语义、语用的分析,获取自然语言的语义表示。
  • 领域列表:应用、餐厅、休闲娱乐、地图、火车票、飞机票、影院、美食团购、酒店、汽车限行、导航、实时路况、天气、公交站点、地铁站点、热映电影、股票、快递、违章、视频、音乐、优惠券、体育赛事、闹钟、提醒、电视频道
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
达摩院 Java 大数据
达摩院FunASR实时语音转写服务软件包发布
达摩院FunASR实时语音转写服务软件包发布
930 0
达摩院FunASR实时语音转写服务软件包发布
|
6月前
|
前端开发 API 异构计算
构建一个语音转文字的WebApi服务
构建一个语音转文字的WebApi服务
203 0
|
语音技术
阿里云语音识别服务提供了三个版本的录音文件识别
阿里云语音识别服务提供了三个版本的录音文件识别
505 1
《阿里云产品手册2022-2023 版》——智能语音交互
《阿里云产品手册2022-2023 版》——智能语音交互
119 0
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
752 0
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
662 0
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
704 0
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12272 116
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
13天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
36 0

热门文章

最新文章