机缘巧合诞生的讯飞语音输入法,如何累积了 4 亿用户?

简介: 在 11 月 2 日的讯飞输入法沟通会上,讯飞输入法产品总监翟吉博分享了讯飞输入法背后的故事,包括这是一个最初仅 4 人的「小项目」、涟漪效应为这款输入法带来的提升、以及他们对输入法这一产品的思考。

在 10 月 18 日的锤子发布会上,除焦点 M1L 之外,语音输入部分惊艳了不少观众。


台上的老罗对着手机说出「今天上午,我们一行人从火车站来到了洲际酒店」,被迅速识别转换成文字出现在手机屏幕上。接着,老罗开始「长时间的胡说八道」,讲了一段自己没吃晚饭不舒服、吃药、喝冰水、来不及去医院、直接上发布会的过程。16 秒不间断的高语速大段口语内容,不到 1 秒便准确呈现在屏幕上,现场雷鸣般的掌声和欢呼声久久不能平息。


749A915E-8B73-4886-8747-CFC0BE6725A9.jpeg

老罗现场「胡说八道」的内容


老罗的现场演示展示出语音输入的便捷、可靠与高效。支持这一切的,正是讯飞输入法的语音输入功能。自 2010 年发布以来,讯飞输入法已累积超 4 亿用户,活跃用户超 1.1 亿。据称,随着深度学习技术的不断突破和应用,其语音识别准确率高于 97%,1 分钟可识别 400 字。


在 11 月 2 日的讯飞输入法沟通会上,讯飞输入法产品总监翟吉博分享了讯飞输入法背后的故事,包括这是一个最初仅 4 人的「小项目」、涟漪效应为这款输入法带来的提升、以及他们对输入法这一产品的思考。


三个月,四个人


2010 年 6 月 8 日,苹果发布了拥有「100 多项创新设计」的经典产品 iPhone 4,引发全球排队购机热潮。据称,iPhone4 的全球销量虽次于诺基亚「神机」1100,但总销售量也超过 1 亿大关。


不过 iPhone 4 屏幕仅为 3.5 英寸。虽说在当时已经算「大屏」,但现在看来也不过是 iPhone7plus 屏幕的二分之一,用全键盘打字时仍有不少困难。


既然用手指输入文字体验不好,可不可以用语音输入?当时做语音相关工作的翟吉博「基于纯技术的思维,将手写输入、语音识别和拼音放在一起,做出了输入法的 Demo」。虽然自己不以为意,但当时的上司看到成果,认为这个产品应该让更多人使用。于是技术出身的翟吉博,开始了学习了解市场、分析用户需求,成为了一名「产品经理」。


3ED97671-4835-45D0-9CB2-45E406EECA21.jpeg

通过讯飞听见,嘉宾分享的内容可以实时呈现在屏幕上


2010 年 10 月,在 iPhone4 发售 4 个月后,讯飞输入法正式上线。6 年积累,曾经由 4 人小团队封闭 3 个月打造的产品,已经牢牢占据各大应用商店输入法类下载量第二。


为什么是讯飞?回想这款输入法出现的时机,虽然 PC 上已有搜狗输入法、百度输入法等相关产品,但移动端市场还处在前期,针对手机端优化的输入法还是空白。「我们认为手机端的输入方式会发生变化,语音交互的比重会越来越大。而且语音输入已经达到可使用的基本门槛,加上对涟漪效应的理解,我们认为通过几年的时间,讯飞输入法可以成熟。」


如今的讯飞输入法团队成员,最开始多是热心用户。曾在论坛里吐槽功能不好用、给产品经理提建议的粉丝成为了讯飞输入法的运营经理,机锋论坛里做 ROM 的「大神」正在负责起渠道推广。曾在电脑城卖过光盘、做过网站,因设计输入法皮肤获奖的用户,也成为了讯飞输入法的专职皮肤设计师。


如何获取更多用户?


满足了使用的基本需求后,如何让更多人使用这款产品?


经过细致的思考和调研,翟吉博团队发现用户在使用语音输入时有四种需求需要被满足:


首先是网络,当时的讯飞输入法需要调用云端极度依赖网络,但移动互联网并不稳定,用户对流量也很敏感;其次是方言,不同方言区的用户的特殊词难以被识别;再其次是个性化语言,不同的人有不同的语言习惯、说话方式和自己的惯用词汇;最后是跨语言交流,让不同语言的人可以通过文字互相了解,方便沟通。


通过推出离线版、方言版、学习个人习惯和中英文实时翻译等版本和功能,讯飞输入法不断满足着这些需求。目前讯飞输入法支持包括粤语、东北话、河南话、四川话能在内近 20 种方言,「秃噜皮儿」、「辣子」等名词都能被迅速识别;选择中英文翻译功能,对准话筒说中文,屏幕上会自动翻译为英文。


F733157D-5138-4327-845C-B85B88E8EF8F.jpeg

产品总监翟吉博现场展示方言版效果,「巴适」、「马路牙子」都能识别出来


除此之外,为满足明星粉丝用户的需求,推出了明星皮肤和图片;为满足二次元用户,可以用讯飞输入法上轻松打出颜文字,甚至还有斗图功能……


这大概是对用户最友好的输入法了。作为高依赖度的工具类产品,获得 4 亿累计用户,1.1 亿活跃用户似乎也就不足为奇。


为什么识别得快又准?


世界上最早的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,可以识别 10 个英文数字。到了 1960 年代,人工神经网络被引入语音识别,两大突破是线性预测编码(Linear Predictive Coding,LPC) 与动态时间弯折(Dynamic Time Warp),不过大都是基于单词、孤立词或是特例人的研究。上世纪 80 年代末,李开复实现了基于隐马尔科夫模型的大词汇量语音识别系统 Sphinx,才完成了语音识别向随机内容、非特例人的句子识别的转变。


直到 2010 年,深度神经网络技术开始应用于语音识别,识别的效果和速度才得到了跨越式的提升。通过海量训练语料基础上的高精度声学模型和语言模型训练,结合解码引擎工程技术,人工智能技术的加入给语音识别带来全新的发展前景。


ECDA1B4C-6AA9-42B0-B91B-0D7384E04CA8.jpeg

主流语音识别系统框架


不过仅有核心技术的提升是不够的,对于深度神经网络来说,真实的数据就是养料和智慧。科大讯飞轮值总裁胡郁曾用「涟漪效应」解释过数据和技术应用的关系:当某一项核心技术刚刚被大众所使用时,就像一滴水滴入水面,水波纹的起伏就是核心技术与用户期望之间的误差。水波纹逐步传播,就像核心技术正在逐步被更多的用户所使用,虽然这时效果还不太好,接触到的用户也不多,但这些用户不知不觉中贡献的经验和数据已经被系统自动学习和更新。当水波纹向外扩散,接下来接触到核心技术的人已经在使用更新过的系统。随着使用的人群越来越多,水波纹扩散的越来越广,大家会发现其实水波的振幅也越来越小,系统的性能也大幅提高。


正是 6 年间用户不断的贡献真实数据,才让讯飞输入法达到了「语音输入通用识别率为 97%,正常的语音输入文字已经不再有很大障碍」的程度,用户体验也在这一过程中逐步提升。


除了语音识别,讯飞输入法的手写识别部分也用到了神经网络和图像识别技术,还可以支持连续书写的文字识别。



在这样一个「低头时代」,又会有多少人选择语音输入?


答案可能远比想象的多。讯飞输入法后台数据显示,虽不是主要输入手段,语音输入的用户比例一直在提升,已经接近手写输入的比例。在这个追逐效率的时代,选择语音输入的用户大概会越来越多。


以及,如果真的很忙来不及发文字,可以考虑试一试语音输入。毕竟在微信上收五条 60 秒语音的经历,有过一次就不想再有一次啦。




©本文由机器之心原创,转载请联系本公众号获得授权

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
数据采集 人工智能 自然语言处理
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
80 2
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
546 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
Web App开发 JavaScript IDE
iPhone 14 Pro 渲染图曝光;​程序员编码抢挂疫苗号牟利 40 万;Chrome 102 发布 | 思否周刊
iPhone 14 Pro 渲染图曝光;​程序员编码抢挂疫苗号牟利 40 万;Chrome 102 发布 | 思否周刊
174 0
iPhone 14 Pro 渲染图曝光;​程序员编码抢挂疫苗号牟利 40 万;Chrome 102 发布 | 思否周刊
|
定位技术 iOS开发 芯片
一张图看懂苹果2017新品发布会!这里有你想要的!
凌晨1点的苹果发布会已经正式结束,毫不夸张的说,这是悬念最低的一场活动,事前的几乎99%的猜测都得到了证实。
122 0
一张图看懂苹果2017新品发布会!这里有你想要的!
|
Web App开发 Android开发 iOS开发
揭密岩鼠云真机黑科技,如何服务好全球十亿用户
岩鼠云真机是如何从UC孵化出来的,又有哪些厉害的黑科技呢?一起来了解下吧!
2300 0
揭密岩鼠云真机黑科技,如何服务好全球十亿用户
|
机器学习/深度学习 人工智能 搜索推荐
下一篇
无影云桌面