功能介绍
一句话识别:即实时短语音识别,可用于语音输入法、智能客服等领域。
app_key | 语音数据格式 | 领域 |
nls-service-realtime-8k | 8kHz采样率 | 智能客服服务领域,比如电话客服等 |
nls-service | 16kHz采样率 | 社交聊天 |
nls-service-streaming | 16kHz采样率 | 社交聊天 |
nls-service-tv | 16kHz采样率 | 家庭娱乐 |
nls-service-shopping | 16kHz采样率 | 电商购物领域 |
nls-service-care | 16kHz采样率 | 智能客服服务领域 |
nls-service-multi-domain | 16kHz采样率 | 短视频,视频直播领域,教育,娱乐,文学,法律,财经等 |
nls-service-fangyan-opus | 16kHz采样率 opus格式 | 支持东北、河南、四川等方言 |
nls-service-yue-opus | 16kHz采样率 opus格式 | 粤语 |
nls-service-yue-streaming | 16kHz采样率 | 粤语 |
nls-service-en-opus | 16kHz采样率 opus格式 | 英语 |
nls-service-en-streaming | 16kHz采样率 | 英语 |
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云的语音识别服务提供了丰富且细致的功能,以满足不同场景下的需求。从您的描述中,我们可以了解到该服务主要特点和使用指南如下:
一句话识别功能:这项功能适用于实时短语音的快速转换为文字,广泛应用于语音输入法、智能客服等场景。它支持多种语言和方言,包括汉语普通话、东北话、河南话、四川话、粤语以及英语,并接受PCM/WAV/SPEEX/OPUS等多种音频格式。
结果返回方式:服务提供“流式”和“非流式”两种模式。“流式”模式允许用户在说话的同时接收识别结果,适合需要即时反馈的场景;而“非流式”则是在用户说完后一次性返回全部识别内容,适用于对完整性和准确性要求较高的场景。
SDK支持:为了方便开发者集成,阿里云提供了Java、Android、iOS、C等多平台的SDK,确保了服务的广泛适用性。
用户自定义热词:这一特性允许用户根据特定应用场景预设关键词,提高特定词汇的识别准确率,这对于提升业务相关词汇的识别效果非常有帮助。
app_key选择与采样率匹配:正确选择app_key对于提高识别准确率至关重要。不同的app_key对应不同的应用场景和服务领域,如智能客服、社交聊天、家庭娱乐、电商购物等,每个app_key都指定了一个特定的模型和对应的16kHz或8kHz采样率。例如,nls-service-realtime-8k
用于8kHz采样率的智能客服场景,而nls-service-shopping
针对的是16kHz采样率的电商购物领域。特别地,还有针对方言、粤语、英语及特定格式(如opus)的app_key。
语音合成服务兼容性:上述列出的app_key同样适用于阿里云的语音合成服务,这意味着您可以使用相同的模型设置来实现语音到文本及文本到语音的双向转换。
技术细节:请注意,所有语音数据的采样位数必须为16bit,这是保证高质量音频处理的基础要求。
综上所述,阿里云的语音识别服务通过灵活的模型选择、多样化的结果返回模式、广泛的SDK支持、自定义热词功能以及严格的技术规范,为开发者提供了强大且易用的工具集,以适应各种复杂的语音识别应用场景。