我们确实是有应用市场的,因为经常要开线下会,会议纪要和相关的重点,需要语音收集,但是语音转文字是一个非常痛苦的过程,需要人不断的去核对去听,所以我们会议里录的语音材料一般不会听,都是现场打字现场把重点记录出来,但是也会有很多遗漏的地方,这时候语音转文字就很重要了,接下来我们看一下实际操作,开通我就不介绍了,直接主界面
目前我这里就四十个小时的录音文件识别,目前公测阶段都是免费的,当然也有商用版本,我们先试用一下语音识别功能,创建一个项目,把名称打进去选好对应的产品
进入项目主界面,首先有个问题只支持wav和MP3,相对于大多数用苹果录音或者其他文件的无法读取录音,我这里找了一个主题曲看看混合音准的识别程度
以下是测试识别的文字,目前这个我不清楚是不是成熟的测试接口,只能按播放进行测试,记录的内容也是当前播放的内容,无法自动完成所有的音频文字翻译识别,简单来说就是还要放一遍,而且中间中断了之前的测试内容无法保存,这个测试是非常糟糕的,wav作为无损音质,识别的精度还是差一些,只能知道他能实现文字识别,识别的精准度和完成度无法测验,可能是【新功能】语音分析系列(说话人识别、声音事件检测、性别识别、语种识别)相关服务重磅发布刚刚上线的原因,目前还是处于接口阶段调试的成功,还没有到成品直接面对市场的程度。可能我现在的测试标准比较高,提供的也是歌曲文件,有很多混杂的因素,但是确实是为了今后能有更好的发展为出发点进行测评的。
同时我也创建了识别率自动化测试,来看合成包的测试效果,这个很简单,但是也需要无损的wav文件,这种无损的要求,可能对大文件的转译不是很友好,要知道wav文件是非常大的,如果一个录音文件长达1个小时,MP3达到57.6M,转WAV差不多是五到十倍左右,也就是四五百兆,这个对于在线功能的实际应用场景也是不小的挑战。
这个短文本的测试效果是很不错的,但是不知道现在的极限是多少,如果能音转文长达1小时或者更长的工作,这个市场将不可限量。