听写服务升级为录音笔OS,搜狗AI如何行业改造?

简介: 老瓶换新酒,搜狗如何推动录音笔市场升级?

存在于 20 多年的录音笔市场,几乎和 MP3 同岁,但后者已经销声匿迹。仅限于扩容、续航、外观改造的传统录音笔,在智能手机日益普及后逐渐进入了增长瓶颈期,产品同质化也越发严重。


据新思界产业研究中心发布的《2019-2023 年录音笔行业深度市场调研及投资策略建议报告》显示,从 2015 年到 2017 年,全国录音笔销量以龟速从 425 万台增至 432 万台。


录音笔如何避免步入 MP3 后尘,在市场中博得生机,成了眼下急需解决的问题。


作为一家语音技术服务商,搜狗试图充当搅动市场的鲶鱼。继今年春天搜狗推出 AI 录音笔 C1,半年后,搜狗用具体行动进一步深挖录音笔市场潜力。近日,搜狗宣布开放其核心技术能力「搜狗听写」服务,并牵头爱国者、万城集团、索尼录音笔、纽曼四家录音笔行业头部企业成立 AI 创新联盟。


搜狗 AI 交互技术中心总经理王砚峰对「听写服务」的角色进行了定位——录音笔 OS,它不同于市场上众多同类服务的原因,主要是它既提供转写、云端、智能编辑等强大的中台服务,还凭借搜狗输入法提供快速接入和硬件匹配的便利。正如 Google 的安卓系统对于手机,微软 Windows 对于电脑,搜狗希望将开放的听写服务打造成录音笔的「操作系统」,这是 AI 技术实现更大商业化的生态打法。


系统服务如何赋能?


AI 加持或将会为行业迎来新的转折点,这是近几年来录音笔行业内的普遍共识。但传统数码录音笔厂商在 AI 技术的研发上较为欠缺,且语音识别和转写技术壁垒较高。


基于搜狗转写技术的搜狗 AI 录音笔 CI 已经得到了市场的检验和认可,其具备实时互译、云端分享、中英同传等多种 AI 功能,以及高达 95% 以上的转写准确率都备受用户青睐,上市后极短时间内就在多个电商平台取得了单品销量第一的成绩等。


搜狗决定将听写服务体系开放出来,进而推动整个录音笔行业的 AI 化变革,这也是搜狗践行其 AI 战略的一次有效尝试,或将让传统录音笔行业从单纯依靠硬件销售的模式转向硬件+软件双服务的商业模式。


在开放「听写服务」的策略上,搜狗避开了做开放性平台向厂商提供 API 接口的传统模式,而是瞄准「录音笔的 OS」——通过蓝牙开放协议,让合作厂商零成本接入,让用户通过 PC 和移动端享用搜狗听写增值服务。


目前搜狗输入法语音请求峰值已超 7 亿次,稳居全球最大的中文语音应用,依托于此,搜狗听写服务背后的转写技术已处于行业领先地位,此外开放的转写技术方案包括:


1、完善和高准确度的转写技术。实时语音转写运用了搜狗自研的延迟可控的 Adaptive Attention-based 端到端建模技术,非实时语音转写功能使用业界领先的深层 Transformer-based 端到端语音识别技术,语音转写准确率可达 95% 以上。


2、接入搜狗输入法。由于用户一般会使用同一个输入法账号,基于用户长期使用的数据积累,系统可以为用户会建立起个人的输入词库,使用户常用的专业词汇、人名地名会被轻松识别。


3、多端同步编辑无论在 PC、安卓还是 iOS 上,用户都可以同步对录音转写的文字,进行编辑。未来输入法可以提供录音文件的导入,导入完了以后进行闭环的管理和编辑等一系列功能,即使用户没有带录音笔,换一个电脑登录自己的输入法,也可以把录音文件同步过来,进行跨电脑的编辑。同时由于配备了声纹识别能力,转写的文字可自动区分出说话人的角色,进行分段整理文字。


4、智能编辑搜狗转写服务可以通过云端智能纠错编辑技术,基于词图搜索和输入纠错模型,针对置信度低的转写结果提供多个候选词,帮助用户对转写结果进行纠正,同时还具备了良好的自动区分说话人、智能文本顺滑和标点预测等能力,可以为用户提供更多便捷功能。


5、云存储服务用户的录音和文字都能作为一种资产,长期保存在云端。


此外,在语音增强方面,搜狗自研的 Smart Voice 麦克风阵列算法能够对噪声和混响进行多重深度优化,确保人声的高保真还原。


值得一提的是,本次搜狗听写服务实现了与搜狗输入法的打通,这不仅为听写服务带来了流量和数据上的巨大优势,同时更是搜狗输入法「表达信息更简单」使命的延伸,也是搜狗听写服务相比其他语音转写平台的优势所在。


目前,搜狗输入法在 PC 端占有 99% 的市场份额,在手机端用户日活超 4.5 亿,搜狗听写服务基于搜狗输入法的用户使用习惯,能够自动构建个性化识别网络,使用户常用语错误率下降 40%。


搜狗开放听写服务后,可以为市场上 90% 以上的录音笔产品提供接入服务,让所有有需求的用户享受「录音 1 小时,出稿 5 分钟」的极致体验。


搜狗公司 AI 交互技术中心总经理王砚峰坦言,未来 AI 赋能一定会越来越重,搜狗开放服务是做了一件很重的事儿。


一直以来,传统录音行业的研发重点都在于人声保真和场景降噪,录音音频的后续生产力转化一直被行业所忽略。


基于搜狗听写服务,搜狗创新性地开拓出一个专业化的录音文件后期智能处理平台,帮助用户轻松实现录音音频向文字的转化,有效节省人力和时间成本,使音频不仅「可听」而且「可看」,也推动着多年来进度滞缓的录音笔行业实现创新跃迁式发展。


联盟意味着什么?


发布会现场,搜狗联合爱国者、纽曼、索尼录音笔、万城集团成立了 AI 创新联盟。现在购买合作厂商录音笔的用户可以通过两条路径享用搜狗听写服务:对于市面上的现有产品,用户将录音笔 USB 接口插入电脑,搜狗输入法就能探测到录音笔的插入,开始按需执行语音转写服务;对于 AI 创新联盟内企业未来研发的新品,在移动端开放蓝牙协议后,用户通过蓝牙与搜狗录音助手相连,就可以实时完成语音转写服务。


可以预见的是,这四大录音笔生产厂商的加盟将为 AI 录音笔市场带来一股软硬融合的推动力量。从以硬件为主的单一收益模式向硬件+服务的多种收益模式转变,促进录音笔行业实现全面智能升级,与 AI 创新深度融合。


而在软件端,通过听写服务接入的输入法,还将为录音笔市场带来庞大的流量池。目前搜狗输入法 APP 端拥有超过 4.5 亿的日活用户,PC 端更是占据 99% 的市场份额。目前该流量池已经与搜狗的智能转写服务打通,未来应用这一服务的用户将会越来越多。


由于打开输入法时使用具体的账号,像特定领域和行业以及个性化词汇都存储在自己的账号里,因此转录的时候,转录结果也会贴近你的词库。


这也意味着搜狗开放给录音笔在语音识别、智能纠错等等方面的能力会在反复应用中不断锤炼提升,层出不断的新俚语、新术语也能通过云端同步其中,录音笔产品技术能力的成长体系得到了保障,长远来看其工具价值呈现出了一种稳步上升的状态。


会上,搜狗 CEO 王小川重申了公司的 AI 战略。他表示,搜狗很少自称 AI 公司,但作为一家底色是技术型公司的互联网公司,AI 是我们的技术之一。搜狗的使命是让表达和获取信息更简单,输入法是帮用户表达信息,搜索是帮用户获取信息。


坚持「自然交互」与「知识计算」双驱动是搜狗的 AI 发展路径。落实到具体产品上,主要为语音交互系统知音 OS 和知识计算平台深智引擎。换句话说,落实在信息表达和信息获取两个层面。


目前,搜狗输入法语音请求峰值超过 7 亿次。在从文字走向语音的道路上,搜狗一挥手获得了巨大的市场份额。同时,搜狗的 AI 语音合成功能、搜狗分身都在今年成为 AI 界的重要新闻。


通过 AI 录音笔创新、开放搜狗语音转写服务、建立 AI 创新联盟,搜狗打通了录音笔的产品、技术与产业三个层面的链条,有望推动录音笔行业进入 AI 时代。


随着 AI 落地进入深水期,互联网公司不再满足于通过单点技术来实现应用功能,而是融合数据、技术和流量池优势,通过联合产业、平台开放来打造持续成长的生态以创造更大的价值。


作为录音笔行业的新势力与破壁者,搜狗凭借自己的 AI 技术优势与硬件能力,率先打破僵局的勇气可嘉。进一步,通过开放听写服务并与多家企业达成联盟,不仅能给录音笔市场注入新的增长动力,更能够通过 AI 赋能更多合作伙伴为产品注入 AI 灵魂,同时也使得录音笔行业的商业模式从硬件收费模式向硬件+服务模式转变,推动整个行业的 AI 化转型。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
9天前
|
存储 人工智能 运维
|
8天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
4天前
|
人工智能 算法 程序员
程序员如何借势AI提高自己:从高效工作到技能升级的全面指南
【11月更文挑战第4天】程序员可以通过以下几个方面借势 AI 提升自己:1. 日常工作效率提升,包括智能代码编写与补全、自动化测试与调试、项目管理与协作;2. 技能学习与升级,涵盖基础知识学习和深入技术研究;3. 思维拓展与创新能力培养,激发创意灵感和培养批判性思维。
|
24天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
565 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
7天前
|
机器学习/深度学习 人工智能 编解码
全面升级的“新清影”,给AI生成视频带来了哪些新玩法?
智谱清言App近日上线了“新清影”,并开源了最新的图生视频模型CogVideoX v1.5。相比之前的版本,“新清影”在视频分辨率、生成速度、多通道生成能力和模型性能等方面均有显著提升,支持生成10秒、4K、60帧的超高清视频。此外,即将上线的音效功能将进一步提升视频的逼真度和实用性,标志着AI视频创作进入“有声时代”。这些改进使得内容创作变得更加高效和便捷,为创作者提供了更多可能性。
|
9天前
|
人工智能 安全 Linux
|
9天前
|
存储 人工智能 安全
【通义】AI视界|苹果停止签署iOS 18.0.1,升级用户无法降级
本文由通义自动生成,涵盖24小时内精选的五条科技资讯:奥特曼谈OpenAI未来发展方向,ChatGPT新搜索功能上线遇故障,Perplexity AI选举搜索面临挑战,马斯克谈特斯拉造手机的可能性,以及苹果停止签署iOS 18.0.1。更多精彩内容,欢迎访问通通知道。
|
24天前
|
存储 消息中间件 人工智能
ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用
本文整理自2024年云栖大会阿里云智能集团高级技术专家金吉祥的演讲《ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用》。
|
22天前
|
人工智能 自然语言处理 数据可视化
阿里云AI大模型助力客户对话分析——全方位提升服务与体验
随着数字化转型的推进,企业愈发重视客户互动数据的价值。阿里云推出了一套基于AI大模型的客户对话分析解决方案,通过自动化手段分析大量客户对话数据,提取有价值信息,优化服务流程,提升客户体验。本文将结合技术文档和实际体验,全面评测这一解决方案。
44 2
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云百炼大模型:引领企业智能化升级的下一代 AI 驱动引擎
随着人工智能技术的快速发展,大规模预训练模型正在改变各行各业的智能化进程。阿里云百炼大模型(Ba-Lian Large Model)作为阿里云推出的企业级 AI 解决方案,通过深度学习、自然语言处理、计算机视觉等前沿技术,帮助企业实现智能化升级,提升业务效率和创新能力。本文将详细介绍阿里云百炼大模型的核心技术、应用场景及其优势,帮助企业更好地理解和利用这一革命性工具。
178 1
下一篇
无影云桌面