AI语音的生态系统之战

简介: 10月18日上午,以“AI元力,重启未来”为主题的AI World 2019 世界人工智能峰会在中国北京中关村展示中心成功举办。峰会由海淀区政府、中关村科学城管委会主办,新智元、海淀园管委会、智源研究院承办。

10月18日上午,以AI元力,重启未来为主题的AI World 2019 世界人工智能峰会在中国北京中关村展示中心成功举办。峰会由海淀区政府、中关村科学城管委会主办,新智元、海淀园管委会、智源研究院承办。


这次峰会上,科大讯飞轮值总裁胡郁做了题为《未来,因A.I.而能》的演讲。老冀注意到,最近几年科大讯飞除了持续投入机器阅读理解、自动驾驶、语音识别AI相关领域的技术研发之外,也正在打造AIoT的生态系统。

微信图片_20211224135500.jpg

胡郁表示:每一个公司都有自己的人工智能、大数据、云计算,彼此正交的不同公司需要并能够建立紧密的合作。在新的生态下,知识、经验、数据、利益的分享变得更加重要,通过混合的方式建立新生态下的共赢合作是成功的关键。”

 

在老冀看来,科大讯飞正在以智能语音相关的AI技术作为核心,打造完整的AIoT生态系统。2018年,科大讯飞推出基于云端的智能语音云端操作系统iFLYOS的新版本——iFLYOS 2.0

 

此前发布的iFLYOS 1.0版本已经提供了超过200个技能,联手腾讯音乐娱乐集团、喜马拉雅在内的100余家内容服务合作方为用户提供相关服务。

 

iFLYOS 2.0在开放度上有了进一步提升:除了直接使用iFLYOS用户体系,企业级开发者还可以选择使用自己的用户体系;利用技能工作室,开发者可以集成自己的各种服务,实现自定义语义服务;在唤醒词、发音人、GUI等方面,开发者都能将自己的品牌元素融合,从而让开发者完全能在iFLYOS的基础上开发一个属于自己的智能硬件操作系统。

 

2018 年,科大讯飞发布了人机交互界面 AIUI 3.0,并与iFLYOS 2.0融合为一体,打造出以语音为主要交互形式,以智能硬件为载体,融合云端与终端的AI Agent(智能物联网操作系统)。


微信图片_20211224135923.jpg


要知道,AI技术的分支其实有很多,分别涉及图像、语音、文本等领域。任何一家AI技术公司,要成功地实现规模商业化,关键还是要跨越从早期尝鲜者到实用型用户的巨大鸿沟。而根据研究机构Gartner的报告,语音识别有望成为最早走向成熟的AI技术。

 

过去,科大讯飞在2B领域特别是教育行业的产业化上做得比较成功;这些年来,科大讯飞也开始涉足2C领域,先后推出了讯飞翻译机3.0、讯飞转写机、讯飞智能录音笔、讯飞智能办公本讯飞学习机等智能硬件产品。

 

正如科大讯飞所规划的那样,任何一家企业要想在AIoT上取得成功,需要做好“铁人三项”:

1. 硬件:智能硬件

2. 服务:建立自有的人工智能服务系统

3. 分发渠道:消费者通过AI Agent获得服务

 

说到底,关键还是要建立智能语音的生态系统。不过,正因为智能语音市场正在走向成熟,还有亚马逊Alexa智能语音生态系统可供借鉴,国内众多科技公司也纷纷开始打造以自己为中心的生态。从目前来看,小米、阿里巴巴、百度都是以智能音箱作为硬件和用户入口,以自己的智能语音开放平台作为载体,通过给众多开发者赋能,力图打造完整的生态系统。

 

以小米为例,截止到今年6月 30 日,小爱智能音箱出货量超 400 万台,小爱同学月活超过 4990 万,45%的智能音箱用户使用语音来控制他们的 IoT 设备。


微信图片_20211224135945.jpg


就在前不久,国际语音识别领域的大牛、语音识别开源工具Kaldi之父 Daniel Povey 在 Twitter 上宣布,他与小米马上要达成一个协议,将会在今年底动身来北京,并且会雇佣一个小团队来打造新一代的语音识别开源工具

 

看来,这场关于智能语音的大战还刚刚开始,谁能够率先建立起更完善的生态系统,谁就更有可能在广阔的AIoT战场占得先机。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
24天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
81 9
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
61 2
|
1月前
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
850 67
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
3天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI芯片驱动智能革命
本课程深入解析AI模型设计演进,探讨AI算法如何影响AI芯片设计,涵盖CPU、GPU、FPGA、ASIC等主流AI芯片,旨在全面理解AI系统体系,适应后摩尔定律时代的技术挑战。
22 5
|
1月前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
1月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
53 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
24天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗领域的革命:智能诊断系统的未来
在科技日新月异的今天,人工智能(AI)技术正逐渐渗透到我们生活的每一个角落,其中医疗领域尤为显著。本文将探讨AI在医疗诊断中的应用及其带来的变革,重点介绍智能诊断系统的发展现状与未来趋势。通过深入浅出的方式,我们将揭示AI如何改变传统医疗模式,提高诊断效率和准确性,最终造福广大患者。
|
2天前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算之比特位宽
本文详细介绍了计算机中整数和浮点数的比特位宽概念及其在AI模型中的应用。通过对比特位宽的定义、整数与浮点数的表示方法、AI中常用的数据类型(如FP32、TF32、FP16、BF16、FP8和Int8)及其在模型训练和推理中的作用进行了阐述。特别关注了FP8数据类型在提高计算性能和减少内存占用方面的新进展,以及降低比特位宽对AI芯片性能的影响,强调了低比特位宽在AI领域的重要性。
15 0
|
29天前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
221 6
|
1月前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
84 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
下一篇
无影云桌面