语音识别渐成热点 新技术实现邮件声、文转换

简介:

当你能够阅读时为何选择收听语音邮件呢?许多公司正在开发这样的软件,将语音邮件转化为电子邮件或者短信息。

我们都曾经收到过来自朋友,亲戚,同事的长语音邮件。现在,美国的 Simulscribe,SpinVox 和Callwave等公司都在为那些不愿意收听这种长语音邮件的忙人们提供转录服务。

尽管手机现在的功能越来越丰富,从发送短消息,上网到播放音乐等等,手机的主要用处还是语音通话。诸如语音转文本的功能成为语音识别技术的新组成部分。

语音识别领域逐渐成为热点。今年三月,微软宣布以8 亿美元的价格收购语音识别技术制造商“Tellme”。Tellme最近已经开始测试一种手机应用程序,它可以让人们语音说出正在搜寻的信息,然后将其传送至手机。

“Forrester Research”研究公司的分析师Charles Golvin说:“语音功能仍然是任何手机的一种杀手级应用。语音识别的潜力尚未得到充分释放,新服务发展也没有得到充分利用。运营商能够使用语音应用技术去推动手机数据服务的发展。”

语音识别技术并不是新东西。目前大部分高端手机都提供某些语音界面,用户可以语音说出指令,象呼叫某人,连接蓝牙耳机等等。但Golvin表示,这些手机目前最大的问题就是它需要用户进行某种形式的语音训练,以便手机可以识别主人的命令,从根本上来讲,用户的每道命令都需要录制。

为了解决这一问题,Sprint Nextel 以及AT&T旗下的Cingular Wireless 移动运营商们已经推出了基于网络的语音激活服务,用户可以上传他们的联系人清单到服务器,这样用户就可以随意语音呼叫联系人了。这种方式不需要进行语音训练或者预先录制。用户在使用之前,仅仅输入*1等代码,然后呼叫想要打电话的人的名字就行了。

但Golvin认为,这种服务也面临两个问题。首先,上传联系人清单会比较的麻烦。其次,运营商每月向此种服务用户征收5 美元的月费,这对用户来说不是一笔小开支。

语音转文字技术为那些需要处理语音邮件的用户找到了一个解决之道。

你不需要耐着性子听完语音邮件,SimulScribe 和SpinVox 的服务可以让你通过短消息或者电子邮件文本了解讯息的大概意思。

转化后的文本信息会在两分钟之内发送到你的电子邮件或者短信收件箱当中。

新技术可以将语音内容分毫不差的转化为文本内容。这意味着,你朋友给你语音讯息中如果提到了电话号码,会面的地址等等,你不再需要找笔来记了。语音转文本的技术已经将它们变成为了文字。另外,这种技术还可以让用户对收到的语音讯息进行重要性的排列,以便安排回复的先后顺序。

SimulScribe 还允许用户将电子邮件收件箱中的电邮以语音邮件或者。wav 文件形式进行保存,收听。这家公司已经为Skype 用户提供提供语音转文本的服务。预计在今年年底,SimulScribe 还将为Vonage的用户提供服务。

SpinVox 公司在欧洲提供类似的服务。上周,这家公司宣布推出一种新的手机博客服务,博客们可以用语音形式书写自己的博客文章。

一家叫做CallWave的公司上周也宣布推出语音转文本服务,但和SpinVox ,SimulScribe 完整转化的模式不同,CallWave只转化语音讯息的要点。

分析师们认为,新的语音识别服务大有可为,但是,他们认为转化的精确性仍然需要得到加强。

Ovum Research研究公司分析师Roger Entner说:“语音识别与转化技术最终开始融合在一起了,但是,当你的语音当中有背景噪音时,那么识别和转化的的质量肯定会大打折扣。”

Yankee Group分析师Jill Aldort 认为,用户可能很难为语音转文本服务再额外掏钱。目前,SimulScrib的月费是9.95美元,可以享受40封语音邮件的转化服务,超出这一数字,用户需要每封支付25美分的费用。




原文出处:科技行者
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
2月前
|
自然语言处理 前端开发 数据可视化
1024程序员节:合合信息“百宝箱”开启智能文档处理新纪元
在数字化转型这股大洪流中,文档处理已然成为企业和开发者日常作业中的一块重要基石。合合信息给开发者送了个大礼——智能文档处理“百宝箱”。这“百宝箱”里头,啥都有,全面、高效、准确,简直就是文档处理的超级神器。他们想通过这个产品,让技术不再那么高不可攀,让更多人,特别是咱们开发者,能轻轻松松地把文档处理的能力加到自己的工作中去。下面来详细看一下吧~
47 0
|
4月前
|
存储 自然语言处理 监控
FunAudioLLM在性能、功能、技术先进性等方面与国际知名语音大模型的比较
FunAudioLLM在性能、功能、技术先进性等方面与国际知名语音大模型的比较
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|
6月前
|
人工智能 自然语言处理 决策智能
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
【6月更文挑战第11天】研究人员开发了一种基于大型语言模型的多智能体协作系统TransAgents,用于文学翻译,挑战复杂的文学文本翻译。通过单语人类偏好和双语LLM偏好评估,系统在保留文学风格和表达上表现出色,尤其在需要领域知识的文本中。然而,系统在捕捉文学翻译的细微差别、文化特定元素和长文本翻译效率上仍有局限性。相关论文链接:https://arxiv.org/abs/2405.11804
167 1
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
内容挖掘——AIGC实现从“伪智慧”到“真智能”的跃迁
【1月更文挑战第7天】内容挖掘——AIGC实现从“伪智慧”到“真智能”的跃迁
88 1
内容挖掘——AIGC实现从“伪智慧”到“真智能”的跃迁
|
人工智能 语音技术
网络视听规范化时代,视频AI破解直播违规难题
网络视听规范化时代,视频AI破解直播违规难题
156 1
|
JavaScript 前端开发 开发工具
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!
292 0
|
自然语言处理 机器人 API
讯飞AIUI智能机器人3---来和机器互动吧(语音技术综合应用)
讯飞AIUI智能机器人3---来和机器互动吧(语音技术综合应用)
335 0
讯飞AIUI智能机器人3---来和机器互动吧(语音技术综合应用)
|
机器学习/深度学习 人工智能 自然语言处理
源1.0开源开放,AI大模型再也不是“头部玩家”的奢侈品
源1.0开源开放,AI大模型再也不是“头部玩家”的奢侈品
563 0
源1.0开源开放,AI大模型再也不是“头部玩家”的奢侈品
|
存储 数据可视化 atlas
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
史上最完善人类新陈代谢谱系模型登上《科学》封面!支持3D交互
157 0