前两天尝试了下阿里云的录音文件识别服务,开通测试项目:
选择模型,除了一些常见的场景外,居然还支持自定义模型:
把一些有关“党建”相关的文章根据标点进行裁剪,每行一句写进一个文本文件,上传后进行再训练,就可以拥有一个属于自己的党建语音识别模型。
除了自学习模型,还可以在项目中加入热词以进一步提高准确率:
点击发布,项目上线就可以通过程序调用了,调用时需要用到AppKey以区分不同的项目。
看了云栖社区另一篇帖子《【智能语音】泡沫下的破浪者,智能语音产品到底落地何处?》才知道这个智能语音服务原来是达摩院的产品。
通过这篇帖子还知道阿里云的智能语的核心定位是做生态,达摩院只聚焦于核心技术,合作伙伴可以结合具体场景进行应用开发,通过积累语料文件、热词等不断提高特定场景下的识别准确率。
另外,非常重要的一点是,阿里云的智能语音服务支持本地化部署,更加适配政务、金融等应用场景的特殊需求。