文档备案控制台

开发者社区问答正文

一句话识别是什么?

功能介绍

一句话识别：即实时短语音识别，可用于语音输入法、智能客服等领域。

支持语言包括：汉语普通话，东北、河南、四川等方言，粤语，英语
支持音频格式：PCM/WAV/SPEEX/OPUS
支持结果返回方式包括：“流式”和“非流式”两种模式
提供Java、Android、iOS、C++ 等平台的SDK。
支持用户自定义热词功能。

选择app_key

语音识别服务根据用户场景抽象出若干模型，如智能客服、社交聊天等。使用正确的模型可以显著提高语音识别准确率。「一句话识别」通过app_key参数指定需要使用的模型，用户可针对具体的使用场景选择。
== 选择时请务必保证语音数据的采样率要与 app_key一致 ==

app_key	语音数据格式	领域
nls-service-realtime-8k	8kHz采样率	智能客服服务领域，比如电话客服等
nls-service	16kHz采样率	社交聊天
nls-service-streaming	16kHz采样率	社交聊天
nls-service-tv	16kHz采样率	家庭娱乐
nls-service-shopping	16kHz采样率	电商购物领域
nls-service-care	16kHz采样率	智能客服服务领域
nls-service-multi-domain	16kHz采样率	短视频，视频直播领域，教育，娱乐，文学，法律，财经等
nls-service-fangyan-opus	16kHz采样率 opus格式	支持东北、河南、四川等方言
nls-service-yue-opus	16kHz采样率 opus格式	粤语
nls-service-yue-streaming	16kHz采样率	粤语
nls-service-en-opus	16kHz采样率 opus格式	英语
nls-service-en-streaming	16kHz采样率	英语

以上所列app_key也可以在调用「语音合成」服务时使用。
注：
(1)“支持的结果返回方式”包括“流式”和“非流式”两种模式，“流式”模式下用户一边说话一边返回识别结果，“非流式”简单来说就是用户整句话说完后返回识别结果。具体设置方式请见API说明
(2) 语音数据采样位数（或称采样精度、量化级）必须为 16bit

展开

收起

nicenelly 2017-11-01 10:12:24 2623 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

阿里云的语音识别服务提供了丰富且细致的功能，以满足不同场景下的需求。从您的描述中，我们可以了解到该服务主要特点和使用指南如下：

一句话识别功能：这项功能适用于实时短语音的快速转换为文字，广泛应用于语音输入法、智能客服等场景。它支持多种语言和方言，包括汉语普通话、东北话、河南话、四川话、粤语以及英语，并接受PCM/WAV/SPEEX/OPUS等多种音频格式。
结果返回方式：服务提供“流式”和“非流式”两种模式。“流式”模式允许用户在说话的同时接收识别结果，适合需要即时反馈的场景；而“非流式”则是在用户说完后一次性返回全部识别内容，适用于对完整性和准确性要求较高的场景。
SDK支持：为了方便开发者集成，阿里云提供了Java、Android、iOS、C等多平台的SDK，确保了服务的广泛适用性。
用户自定义热词：这一特性允许用户根据特定应用场景预设关键词，提高特定词汇的识别准确率，这对于提升业务相关词汇的识别效果非常有帮助。
app_key选择与采样率匹配：正确选择app_key对于提高识别准确率至关重要。不同的app_key对应不同的应用场景和服务领域，如智能客服、社交聊天、家庭娱乐、电商购物等，每个app_key都指定了一个特定的模型和对应的16kHz或8kHz采样率。例如，nls-service-realtime-8k用于8kHz采样率的智能客服场景，而nls-service-shopping针对的是16kHz采样率的电商购物领域。特别地，还有针对方言、粤语、英语及特定格式（如opus）的app_key。
语音合成服务兼容性：上述列出的app_key同样适用于阿里云的语音合成服务，这意味着您可以使用相同的模型设置来实现语音到文本及文本到语音的双向转换。
技术细节：请注意，所有语音数据的采样位数必须为16bit，这是保证高质量音频处理的基础要求。

综上所述，阿里云的语音识别服务通过灵活的模型选择、多样化的结果返回模式、广泛的SDK支持、自定义热词功能以及严格的技术规范，为开发者提供了强大且易用的工具集，以适应各种复杂的语音识别应用场景。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

自然语言处理 Java BI 视频直播 API 语音技术开发工具 Android开发 iOS开发内存技术视频直播客服工作台智能语音交互智能语音交互

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

134889

16

0

#支付宝授权提示请在支付宝客户端打开链接

18288

19

0

#支付宝身份验证失败（人气大爆发，一会再试试）？

10573

2

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

266415

11

0

轻量级应用服务器端口问题（打不开）

31797

21

0

购买阿里国外的云服务器是否可以访问谷歌？

86688

49

0

this xml file does not appear to have any style in

54286

11

0

今天刚刚买的阿里云香港服务器，国内无法访问，坑啊

35020

17

0

LoRa的网络覆盖能力范围是怎么样的？

4088

1

0

com/action/joingroup?code=v1是什么意思

220922

21

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

灵码如何使用skills呢

阿里云服务器镜像系统选哪个比较好？稳定和兼容性如何？

已经实名，但免费API无法使用

灵码编辑器导航栏的前进后退不见了

Swingdeploy搜索不到已有模型

相关文章

保姆级教学：OpenClaw(Clawdbot)阿里云及本地部署接入伟达免费API全指南

OpenClaw(Clawdbot)云端及本地部署保姆级教程，这些提示词skills构建“第二大脑”（智能知识数据库）

[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent

保姆级指南：OpenClaw阿里云及本地部署最佳实践：抓取行业调研资料+三维提效法，7天吃透陌生赛道

C++ IO流详解：标准IO、文件IO与字符串IO实战

还有其他疑问?