听写服务升级为录音笔OS,搜狗AI如何行业改造?

简介: 老瓶换新酒,搜狗如何推动录音笔市场升级?

存在于 20 多年的录音笔市场,几乎和 MP3 同岁,但后者已经销声匿迹。仅限于扩容、续航、外观改造的传统录音笔,在智能手机日益普及后逐渐进入了增长瓶颈期,产品同质化也越发严重。


据新思界产业研究中心发布的《2019-2023 年录音笔行业深度市场调研及投资策略建议报告》显示,从 2015 年到 2017 年,全国录音笔销量以龟速从 425 万台增至 432 万台。


录音笔如何避免步入 MP3 后尘,在市场中博得生机,成了眼下急需解决的问题。


作为一家语音技术服务商,搜狗试图充当搅动市场的鲶鱼。继今年春天搜狗推出 AI 录音笔 C1,半年后,搜狗用具体行动进一步深挖录音笔市场潜力。近日,搜狗宣布开放其核心技术能力「搜狗听写」服务,并牵头爱国者、万城集团、索尼录音笔、纽曼四家录音笔行业头部企业成立 AI 创新联盟。


搜狗 AI 交互技术中心总经理王砚峰对「听写服务」的角色进行了定位——录音笔 OS,它不同于市场上众多同类服务的原因,主要是它既提供转写、云端、智能编辑等强大的中台服务,还凭借搜狗输入法提供快速接入和硬件匹配的便利。正如 Google 的安卓系统对于手机,微软 Windows 对于电脑,搜狗希望将开放的听写服务打造成录音笔的「操作系统」,这是 AI 技术实现更大商业化的生态打法。


系统服务如何赋能?


AI 加持或将会为行业迎来新的转折点,这是近几年来录音笔行业内的普遍共识。但传统数码录音笔厂商在 AI 技术的研发上较为欠缺,且语音识别和转写技术壁垒较高。


基于搜狗转写技术的搜狗 AI 录音笔 CI 已经得到了市场的检验和认可,其具备实时互译、云端分享、中英同传等多种 AI 功能,以及高达 95% 以上的转写准确率都备受用户青睐,上市后极短时间内就在多个电商平台取得了单品销量第一的成绩等。


搜狗决定将听写服务体系开放出来,进而推动整个录音笔行业的 AI 化变革,这也是搜狗践行其 AI 战略的一次有效尝试,或将让传统录音笔行业从单纯依靠硬件销售的模式转向硬件+软件双服务的商业模式。


在开放「听写服务」的策略上,搜狗避开了做开放性平台向厂商提供 API 接口的传统模式,而是瞄准「录音笔的 OS」——通过蓝牙开放协议,让合作厂商零成本接入,让用户通过 PC 和移动端享用搜狗听写增值服务。


目前搜狗输入法语音请求峰值已超 7 亿次,稳居全球最大的中文语音应用,依托于此,搜狗听写服务背后的转写技术已处于行业领先地位,此外开放的转写技术方案包括:


1、完善和高准确度的转写技术。实时语音转写运用了搜狗自研的延迟可控的 Adaptive Attention-based 端到端建模技术,非实时语音转写功能使用业界领先的深层 Transformer-based 端到端语音识别技术,语音转写准确率可达 95% 以上。


2、接入搜狗输入法。由于用户一般会使用同一个输入法账号,基于用户长期使用的数据积累,系统可以为用户会建立起个人的输入词库,使用户常用的专业词汇、人名地名会被轻松识别。


3、多端同步编辑无论在 PC、安卓还是 iOS 上,用户都可以同步对录音转写的文字,进行编辑。未来输入法可以提供录音文件的导入,导入完了以后进行闭环的管理和编辑等一系列功能,即使用户没有带录音笔,换一个电脑登录自己的输入法,也可以把录音文件同步过来,进行跨电脑的编辑。同时由于配备了声纹识别能力,转写的文字可自动区分出说话人的角色,进行分段整理文字。


4、智能编辑搜狗转写服务可以通过云端智能纠错编辑技术,基于词图搜索和输入纠错模型,针对置信度低的转写结果提供多个候选词,帮助用户对转写结果进行纠正,同时还具备了良好的自动区分说话人、智能文本顺滑和标点预测等能力,可以为用户提供更多便捷功能。


5、云存储服务用户的录音和文字都能作为一种资产,长期保存在云端。


此外,在语音增强方面,搜狗自研的 Smart Voice 麦克风阵列算法能够对噪声和混响进行多重深度优化,确保人声的高保真还原。


值得一提的是,本次搜狗听写服务实现了与搜狗输入法的打通,这不仅为听写服务带来了流量和数据上的巨大优势,同时更是搜狗输入法「表达信息更简单」使命的延伸,也是搜狗听写服务相比其他语音转写平台的优势所在。


目前,搜狗输入法在 PC 端占有 99% 的市场份额,在手机端用户日活超 4.5 亿,搜狗听写服务基于搜狗输入法的用户使用习惯,能够自动构建个性化识别网络,使用户常用语错误率下降 40%。


搜狗开放听写服务后,可以为市场上 90% 以上的录音笔产品提供接入服务,让所有有需求的用户享受「录音 1 小时,出稿 5 分钟」的极致体验。


搜狗公司 AI 交互技术中心总经理王砚峰坦言,未来 AI 赋能一定会越来越重,搜狗开放服务是做了一件很重的事儿。


一直以来,传统录音行业的研发重点都在于人声保真和场景降噪,录音音频的后续生产力转化一直被行业所忽略。


基于搜狗听写服务,搜狗创新性地开拓出一个专业化的录音文件后期智能处理平台,帮助用户轻松实现录音音频向文字的转化,有效节省人力和时间成本,使音频不仅「可听」而且「可看」,也推动着多年来进度滞缓的录音笔行业实现创新跃迁式发展。


联盟意味着什么?


发布会现场,搜狗联合爱国者、纽曼、索尼录音笔、万城集团成立了 AI 创新联盟。现在购买合作厂商录音笔的用户可以通过两条路径享用搜狗听写服务:对于市面上的现有产品,用户将录音笔 USB 接口插入电脑,搜狗输入法就能探测到录音笔的插入,开始按需执行语音转写服务;对于 AI 创新联盟内企业未来研发的新品,在移动端开放蓝牙协议后,用户通过蓝牙与搜狗录音助手相连,就可以实时完成语音转写服务。


可以预见的是,这四大录音笔生产厂商的加盟将为 AI 录音笔市场带来一股软硬融合的推动力量。从以硬件为主的单一收益模式向硬件+服务的多种收益模式转变,促进录音笔行业实现全面智能升级,与 AI 创新深度融合。


而在软件端,通过听写服务接入的输入法,还将为录音笔市场带来庞大的流量池。目前搜狗输入法 APP 端拥有超过 4.5 亿的日活用户,PC 端更是占据 99% 的市场份额。目前该流量池已经与搜狗的智能转写服务打通,未来应用这一服务的用户将会越来越多。


由于打开输入法时使用具体的账号,像特定领域和行业以及个性化词汇都存储在自己的账号里,因此转录的时候,转录结果也会贴近你的词库。


这也意味着搜狗开放给录音笔在语音识别、智能纠错等等方面的能力会在反复应用中不断锤炼提升,层出不断的新俚语、新术语也能通过云端同步其中,录音笔产品技术能力的成长体系得到了保障,长远来看其工具价值呈现出了一种稳步上升的状态。


会上,搜狗 CEO 王小川重申了公司的 AI 战略。他表示,搜狗很少自称 AI 公司,但作为一家底色是技术型公司的互联网公司,AI 是我们的技术之一。搜狗的使命是让表达和获取信息更简单,输入法是帮用户表达信息,搜索是帮用户获取信息。


坚持「自然交互」与「知识计算」双驱动是搜狗的 AI 发展路径。落实到具体产品上,主要为语音交互系统知音 OS 和知识计算平台深智引擎。换句话说,落实在信息表达和信息获取两个层面。


目前,搜狗输入法语音请求峰值超过 7 亿次。在从文字走向语音的道路上,搜狗一挥手获得了巨大的市场份额。同时,搜狗的 AI 语音合成功能、搜狗分身都在今年成为 AI 界的重要新闻。


通过 AI 录音笔创新、开放搜狗语音转写服务、建立 AI 创新联盟,搜狗打通了录音笔的产品、技术与产业三个层面的链条,有望推动录音笔行业进入 AI 时代。


随着 AI 落地进入深水期,互联网公司不再满足于通过单点技术来实现应用功能,而是融合数据、技术和流量池优势,通过联合产业、平台开放来打造持续成长的生态以创造更大的价值。


作为录音笔行业的新势力与破壁者,搜狗凭借自己的 AI 技术优势与硬件能力,率先打破僵局的勇气可嘉。进一步,通过开放听写服务并与多家企业达成联盟,不仅能给录音笔市场注入新的增长动力,更能够通过 AI 赋能更多合作伙伴为产品注入 AI 灵魂,同时也使得录音笔行业的商业模式从硬件收费模式向硬件+服务模式转变,推动整个行业的 AI 化转型。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1天前
|
机器学习/深度学习 人工智能 安全
探索操作系统的未来:量子计算与AI的交汇点
【6月更文挑战第26天】随着科技的不断进步,传统的操作系统正面临着前所未有的挑战与机遇。本文将探讨操作系统在量子计算和人工智能领域的未来发展趋势,分析这些新兴技术如何推动操作系统设计的革新,以及它们将如何影响我们的日常生活和工作方式。
|
6天前
|
机器学习/深度学习 人工智能 监控
探索操作系统的未来:量子计算与AI的融合
【6月更文挑战第21天】随着科技的不断进步,传统操作系统正面临着前所未有的挑战与机遇。本文将探讨未来操作系统的发展趋势,重点分析量子计算和人工智能技术如何推动操作系统的革命性变革。从量子操作系统的原理到AI在系统优化中的应用,文章将揭示这些前沿技术如何共同塑造更加智能、高效的计算机环境,为读者呈现一个充满可能性的未来计算图景。
|
10天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:AI在现代IT服务管理中的应用
【6月更文挑战第17天】随着人工智能技术的不断进步,智能运维已成为提升IT服务效率和质量的关键手段。本文将探讨如何通过集成机器学习、大数据分析等技术来优化传统运维流程,实现故障预测、自动化处理及持续的性能优化,旨在为IT专业人士提供实施智能运维的洞见与策略。
|
11天前
|
存储 人工智能 运维
搭建生产级AI服务
搭建生产级AI服务
22 2
|
14天前
|
机器学习/深度学习 人工智能 算法
主流AI服务——大专生新就业之路
主流AI服务——大专生新就业之路
14 0
|
15天前
|
人工智能 API 流计算
[AI Stability] 开源AI新利器:Stable Diffusion 3 Medium震撼发布!文本到图像再升级!
探索 Stable Diffusion 3 Medium(SD3),Stability AI 的最新开源模型,正在彻底改变文本到图像的生成。了解其功能、许可选项和集成可能性。
[AI Stability] 开源AI新利器:Stable Diffusion 3 Medium震撼发布!文本到图像再升级!
|
21天前
|
存储 人工智能 弹性计算
自动化搭建专属 AI 绘图服务
本文介绍了如何使用通义万相AIGC技术和阿里云的计算和存储产品来搭建自己的AI绘画服务。首先,通过创建基础云产品资源和部署AI绘画服务的步骤来开始搭建服务。然后,介绍了模板的原理和内容,以及ROS编排引擎的作用。接下来,详细介绍了AI绘画服务的一键部署过程,包括定义参数、模板的编写和ROS的使用。最后,提到了应用运行环境的搭建和自定义应用页面的方法。通过ROS的自动化部署,用户可以方便快捷地拥有自己的AI绘画服务。
79 2
|
23天前
|
人工智能 自动驾驶 搜索推荐
AI技术创业:挖掘行业解决方案、智能产品服务及教育培训的无限机遇
AI技术创业:挖掘行业解决方案、智能产品服务及教育培训的无限机遇
34 0
|
28天前
|
人工智能 对象存储 异构计算
AI模型推理服务在Knative中最佳配置实践
Knative和AI结合提供了快速部署、高弹性和低成本的技术优势,对于一些需要频繁变动计算资源的AI应用,如模型推理等尤其明显。那么在Knative上部署AI模型推理时可以遵循这些最佳实践,以提升AI推理服务能力和GPU资源利用率。
|
29天前
|
安全 Linux 应用服务中间件
操作系统引导过程 与 服务进程的控制
操作系统引导过程 与 服务进程的控制

热门文章

最新文章