机缘巧合诞生的讯飞语音输入法,如何累积了 4 亿用户?

简介: 在 11 月 2 日的讯飞输入法沟通会上,讯飞输入法产品总监翟吉博分享了讯飞输入法背后的故事,包括这是一个最初仅 4 人的「小项目」、涟漪效应为这款输入法带来的提升、以及他们对输入法这一产品的思考。

在 10 月 18 日的锤子发布会上,除焦点 M1L 之外,语音输入部分惊艳了不少观众。


台上的老罗对着手机说出「今天上午,我们一行人从火车站来到了洲际酒店」,被迅速识别转换成文字出现在手机屏幕上。接着,老罗开始「长时间的胡说八道」,讲了一段自己没吃晚饭不舒服、吃药、喝冰水、来不及去医院、直接上发布会的过程。16 秒不间断的高语速大段口语内容,不到 1 秒便准确呈现在屏幕上,现场雷鸣般的掌声和欢呼声久久不能平息。


749A915E-8B73-4886-8747-CFC0BE6725A9.jpeg

老罗现场「胡说八道」的内容


老罗的现场演示展示出语音输入的便捷、可靠与高效。支持这一切的,正是讯飞输入法的语音输入功能。自 2010 年发布以来,讯飞输入法已累积超 4 亿用户,活跃用户超 1.1 亿。据称,随着深度学习技术的不断突破和应用,其语音识别准确率高于 97%,1 分钟可识别 400 字。


在 11 月 2 日的讯飞输入法沟通会上,讯飞输入法产品总监翟吉博分享了讯飞输入法背后的故事,包括这是一个最初仅 4 人的「小项目」、涟漪效应为这款输入法带来的提升、以及他们对输入法这一产品的思考。


三个月,四个人


2010 年 6 月 8 日,苹果发布了拥有「100 多项创新设计」的经典产品 iPhone 4,引发全球排队购机热潮。据称,iPhone4 的全球销量虽次于诺基亚「神机」1100,但总销售量也超过 1 亿大关。


不过 iPhone 4 屏幕仅为 3.5 英寸。虽说在当时已经算「大屏」,但现在看来也不过是 iPhone7plus 屏幕的二分之一,用全键盘打字时仍有不少困难。


既然用手指输入文字体验不好,可不可以用语音输入?当时做语音相关工作的翟吉博「基于纯技术的思维,将手写输入、语音识别和拼音放在一起,做出了输入法的 Demo」。虽然自己不以为意,但当时的上司看到成果,认为这个产品应该让更多人使用。于是技术出身的翟吉博,开始了学习了解市场、分析用户需求,成为了一名「产品经理」。


3ED97671-4835-45D0-9CB2-45E406EECA21.jpeg

通过讯飞听见,嘉宾分享的内容可以实时呈现在屏幕上


2010 年 10 月,在 iPhone4 发售 4 个月后,讯飞输入法正式上线。6 年积累,曾经由 4 人小团队封闭 3 个月打造的产品,已经牢牢占据各大应用商店输入法类下载量第二。


为什么是讯飞?回想这款输入法出现的时机,虽然 PC 上已有搜狗输入法、百度输入法等相关产品,但移动端市场还处在前期,针对手机端优化的输入法还是空白。「我们认为手机端的输入方式会发生变化,语音交互的比重会越来越大。而且语音输入已经达到可使用的基本门槛,加上对涟漪效应的理解,我们认为通过几年的时间,讯飞输入法可以成熟。」


如今的讯飞输入法团队成员,最开始多是热心用户。曾在论坛里吐槽功能不好用、给产品经理提建议的粉丝成为了讯飞输入法的运营经理,机锋论坛里做 ROM 的「大神」正在负责起渠道推广。曾在电脑城卖过光盘、做过网站,因设计输入法皮肤获奖的用户,也成为了讯飞输入法的专职皮肤设计师。


如何获取更多用户?


满足了使用的基本需求后,如何让更多人使用这款产品?


经过细致的思考和调研,翟吉博团队发现用户在使用语音输入时有四种需求需要被满足:


首先是网络,当时的讯飞输入法需要调用云端极度依赖网络,但移动互联网并不稳定,用户对流量也很敏感;其次是方言,不同方言区的用户的特殊词难以被识别;再其次是个性化语言,不同的人有不同的语言习惯、说话方式和自己的惯用词汇;最后是跨语言交流,让不同语言的人可以通过文字互相了解,方便沟通。


通过推出离线版、方言版、学习个人习惯和中英文实时翻译等版本和功能,讯飞输入法不断满足着这些需求。目前讯飞输入法支持包括粤语、东北话、河南话、四川话能在内近 20 种方言,「秃噜皮儿」、「辣子」等名词都能被迅速识别;选择中英文翻译功能,对准话筒说中文,屏幕上会自动翻译为英文。


F733157D-5138-4327-845C-B85B88E8EF8F.jpeg

产品总监翟吉博现场展示方言版效果,「巴适」、「马路牙子」都能识别出来


除此之外,为满足明星粉丝用户的需求,推出了明星皮肤和图片;为满足二次元用户,可以用讯飞输入法上轻松打出颜文字,甚至还有斗图功能……


这大概是对用户最友好的输入法了。作为高依赖度的工具类产品,获得 4 亿累计用户,1.1 亿活跃用户似乎也就不足为奇。


为什么识别得快又准?


世界上最早的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,可以识别 10 个英文数字。到了 1960 年代,人工神经网络被引入语音识别,两大突破是线性预测编码(Linear Predictive Coding,LPC) 与动态时间弯折(Dynamic Time Warp),不过大都是基于单词、孤立词或是特例人的研究。上世纪 80 年代末,李开复实现了基于隐马尔科夫模型的大词汇量语音识别系统 Sphinx,才完成了语音识别向随机内容、非特例人的句子识别的转变。


直到 2010 年,深度神经网络技术开始应用于语音识别,识别的效果和速度才得到了跨越式的提升。通过海量训练语料基础上的高精度声学模型和语言模型训练,结合解码引擎工程技术,人工智能技术的加入给语音识别带来全新的发展前景。


ECDA1B4C-6AA9-42B0-B91B-0D7384E04CA8.jpeg

主流语音识别系统框架


不过仅有核心技术的提升是不够的,对于深度神经网络来说,真实的数据就是养料和智慧。科大讯飞轮值总裁胡郁曾用「涟漪效应」解释过数据和技术应用的关系:当某一项核心技术刚刚被大众所使用时,就像一滴水滴入水面,水波纹的起伏就是核心技术与用户期望之间的误差。水波纹逐步传播,就像核心技术正在逐步被更多的用户所使用,虽然这时效果还不太好,接触到的用户也不多,但这些用户不知不觉中贡献的经验和数据已经被系统自动学习和更新。当水波纹向外扩散,接下来接触到核心技术的人已经在使用更新过的系统。随着使用的人群越来越多,水波纹扩散的越来越广,大家会发现其实水波的振幅也越来越小,系统的性能也大幅提高。


正是 6 年间用户不断的贡献真实数据,才让讯飞输入法达到了「语音输入通用识别率为 97%,正常的语音输入文字已经不再有很大障碍」的程度,用户体验也在这一过程中逐步提升。


除了语音识别,讯飞输入法的手写识别部分也用到了神经网络和图像识别技术,还可以支持连续书写的文字识别。



在这样一个「低头时代」,又会有多少人选择语音输入?


答案可能远比想象的多。讯飞输入法后台数据显示,虽不是主要输入手段,语音输入的用户比例一直在提升,已经接近手写输入的比例。在这个追逐效率的时代,选择语音输入的用户大概会越来越多。


以及,如果真的很忙来不及发文字,可以考虑试一试语音输入。毕竟在微信上收五条 60 秒语音的经历,有过一次就不想再有一次啦。




©本文由机器之心原创,转载请联系本公众号获得授权

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
存储 搜索推荐 数据挖掘
错误代码502,网页无法打开?教你如何解决!
错误代码502,网页无法打开?教你如何解决!
|
6月前
|
消息中间件 人工智能 分布式计算
多智能体系统设计:协作、竞争与涌现行为
作为一名长期专注于分布式系统和人工智能领域的技术博主,我深深被多智能体系统(Multi-Agent Systems, MAS)的复杂性和优雅性所吸引。在过去几年的研究和实践中,我见证了多智能体系统从理论概念逐步走向实际应用的转变过程。多智能体系统不仅仅是简单的分布式计算模型,它更像是一个微观社会,其中每个智能体都具有自主性、反应性和社会性。这些智能体通过复杂的交互模式,展现出了令人惊叹的集体智能现象。从最初的简单协作模式,到复杂的竞争博弈,再到最终涌现出的群体智慧,多智能体系统为我们提供了一个全新的视角来理解和设计复杂系统。在本文中,我将从架构设计原则出发,深入探讨通信协议的设计要点,分析冲突
997 0
多智能体系统设计:协作、竞争与涌现行为
|
存储 边缘计算 物联网
揭秘边缘计算:定义、优势、挑战与未来趋势
揭秘边缘计算:定义、优势、挑战与未来趋势
|
存储 Java API
Elasticsearch 7.8.0从入门到精通
这篇文章详细介绍了Elasticsearch 7.8.0的安装、核心概念(如正排索引和倒排索引)、RESTful风格、各种索引和文档操作、条件查询、聚合查询以及在Spring Boot中整合Elasticsearch的步骤和示例。
631 1
Elasticsearch 7.8.0从入门到精通
|
关系型数据库 分布式数据库 数据库
【PolarDB开源】PolarDB资源隔离技术:在多租户环境中的应用与优化
【5月更文挑战第29天】PolarDB,阿里云的云原生数据库,在多租户环境中通过逻辑(Schema/Partition隔离)和物理(分布式存储计算节点)隔离保障数据安全和资源独占。它支持动态资源分配,适应不同租户需求,处理大规模并发,提供租户管理及数据访问控制功能。通过优化资源分配算法、提升事务处理能力和强化监控告警,PolarDB确保性能和稳定性,满足多租户的高效数据库服务需求。
525 1
|
安全 Linux 网络安全
【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等
【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等
132811 0
WK
|
机器学习/深度学习 人工智能 算法
那C++适合开发哪些项目
C++ 是一种功能强大、应用广泛的编程语言,适合开发多种类型的项目。它在游戏开发、操作系统、嵌入式系统、科学计算、金融、图形图像处理、数据库管理、网络通信、人工智能、虚拟现实、航空航天等领域都有广泛应用。C++ 以其高性能、内存管理和跨平台兼容性等优势,成为众多开发者的选择。
WK
815 1
|
存储 关系型数据库 MySQL
深入研究MySQL意向锁
MySQL意向锁是一种特殊的表级锁,由InnoDB存储引擎在操作数据之前自动添加,无需用户干预。它分为意向共享锁(IS)和意向排他锁(IX)两种。意向锁的主要作用是协调行锁和表锁的关系,优化加锁策略,避免全表扫描判断是否存在行锁。意向锁之间不会冲突,但会与表级别的排他锁冲突,从而确保数据库并发访问的一致性和完整性。简而言之,意向锁提高了数据库并发操作的性能和效率。
23360 5
|
自然语言处理 Java
BoolQueryBuilder 如何进行模糊查询 并且模糊过滤去除name为Ab的 【4月更文挑战第2天】
如果你想使用 BoolQueryBuilder 进行模糊查询,并且要排除那些 name 字段为特定值(如 "Ab")的文档,你可以使用 must_not 子句与 FuzzyQueryBuilder 和 TermQueryBuilder 组合。以下是如何在 Elasticsearch 中实现这一需求的示例: Java代码实现 假设你想对字段 description 进行模糊查询,并确保排除 name 字段为 "Ab" 的文档: java Copy code import org.elasticsearch.index.query.BoolQueryBuilder; import org.e
1675 3

热门文章

最新文章