高通为硬件厂商们奉上了一张语音时代的入场券

简介:

不久前的WWDC大会上,HomePod终于在万众期待中姗姗来迟。至此,硅谷三大科技巨头——亚马逊、谷歌、苹果都推出了自己的智能音箱产品,这似乎标志着语音交互时代正式开启。每一次人机交互的变革,都伴随着行业重新洗牌:图形用户界面成就了微软帝国,触摸屏技术则将苹果和谷歌推上了巅峰。

三大巨头的智能音箱采用的都是自家的技术,但这并不意味着那些没有能力独力开发一整套系统和元件的硬件厂商,已经从这场角逐中提前出局。6月14日下午,在深圳举办的Qualcomm语音和音乐开发者大会上,高通公司宣布推出全新Qualcomm®智能音频平台,为每位硬件厂商奉上了一张语音时代的入场券。

更加智能、灵活

对硬件厂商而言,一套方案是否优秀主要取决于两点:第一,它是不是足够“聪明”,能提供强大的性能,支持丰富的功能;第二,它是否足够灵活,能横跨不同的产品层级和类别。

高通的智能音频解决方案可提供基于APQ8009和APQ8017的两个Qualcomm®系统级芯片(SoC)选项,以及一系列软件配置。该平台结合了处理能力、语音用户界面选项、灵活的无线连接配置和顶级音频技术,支持制造商快速开发并商用高性能扬声器解决方案。

借助高度响应的语音激活与波束成形技术,该方案还能够提供先进的多麦克风远场语音功能;辅以语音软件中的回音消除、噪声抑制和“打断”功能,可在吵闹嘈杂的环境中支持可靠的语音界面,即使用户远离智能扬声器时也同样有效。

据高通语音与音乐高级副总裁兼总经理Anthony Murray介绍,高通智能音频平台可支持由3-8个麦克风组成的麦克风阵列。硬件厂商可以根据自身的产品类型对算法进行灵活调整。

Anthony Murray表示:“Qualcomm智能音频平台在单个解决方案中结合了高性能的处理能力、一流的蓝牙与Wi-Fi、先进的远场语音采集与唤醒词探测、AllPlay多房间音频流传输技术,以及对主要语音生态系统的支持。由于结合了所有必需的硬件、软件与工具以缩短开发时间,该平台是传统扬声器制造商向联网平台转变的理想选择。它也将为那些希望突破极限、实现智能扬声器未来应用的制造商提供了极大程度的灵活性。”

此外,高通还宣布向已有的广泛音频系统级芯片(SoC)平台产品组合中新增多款主要产品。每款平台都可单独定制以支持新的市场需求,其中第一款方案提供显著提升的处理性能;第二款可在固定功能ROM的价位上,支持可编程的灵活性;第三款解决方案可支持开发卓越音质的有线USB-C音频设备。这些平台还面向具体应用与用例进行设计,包括下一代高性能耳机与扬声器、具有综合性能的中端耳机与扬声器,以及有线USB-C耳机。

为无线音频时代奠基

苹果在iPhone 7中率先取消了3.55mm耳机插孔,同时推出了Airpods无线耳机。不得不承认,无线耳机已经成了越来越多消费者的新选择。

高通在无线音频技术领域耕耘已久,且长期处于领导地位。过去,由于传输速率的制约,蓝牙无线传输技术在应对CD级别的音频质量时多少有些力不从心,观看视频时甚至还可能出现音画不同步。高通此前推出的aptX编码技术完美解决了这一问题,它既可以提供CD级别的高音质,又能保证传输速度。在aptX的基础上,高通又发展出了新一代aptX™ HD音频技术。高通此次推出的智能音频平台增加了对这一最新技术的支持,可通过Bluetooth®(蓝牙)传输24位高清无线音频,使得无线音频设备也能拥有媲美有线的音质。

引领音质革命

作为后来者,苹果HomePod区别于亚马逊Echo和Google Home的一大特色,就在于其出色的音质。在家庭市场,soundbar等音箱产品也渐渐占据了一席之地。Anthony Murray表示:“视频显示技术从CRT发展到4K,再到8K,已经有了质的飞跃。然而音频质量却始终在原地踏步。”高通决心改变这一现状,如今时机似乎也已经成熟。

除了全新的智能音频平台,高通此次还推出了新一代DDFA音频放大器技术,可以支持包括无线扬声器、条形音箱(soundbar)、联网音频和耳机放大器在内的高解析度音频设备。

传统的D类放大器虽然具有很高的功效,但它们通常不能提供传统线性放大器所支持的音质。DDFA的全数字化脉宽调制器(Pulse Width Modulation,PWM)和专有闭环架构弥补了电源级和输出级的非线性,在保留D类放大器优势的同时,提供了更高保真的音频质量和更高的设计灵活性。

下一代DDFA将集成于CSRA6620系统级芯片(SoC)。CSRA6620是一个高度集成的平台,包括支持八路声道输入和两路声道输出的DDFA控制器、微控制器和可配置的音频处理器。与此前相比,上述特性均有助于OEM厂商以更低的复杂程度和更经济的方式,集成业界最佳的放大器性能。全新CSRA6620平台采用了9毫米*9毫米的方形QFN封装,使其完美适用于外形更小的产品,并为诸多全新类别及应用带来极高的音频性能。

赋能VR

高通在音频技术领域取得的成果,不仅将引发音频体验的变革,推动语音交互技术的发展,还将在其他技术领域带来突破性的进展。以VR为例,音频在VR技术中扮演着十分重要的角色,接近一半的沉浸感是通过音频技术来实现的。

比如,以往游戏剧情中产生新的分支时,系统会通过感叹号和箭头等符号进行提示,而在VR游戏中声音将取代这些符号的作用。要实现出色的沉浸式体验,准确的音频位置和合适的音量大小都至关重要。

不得不承认的是,语音交互技术和VR技术目前仍处在非常初级的阶段,但高通已经用它在音频领域长期耕耘的成果,为有志于语音时代的硬件厂商们铺好了路基,因此我们有理由相信,一个更加精彩的以语音交互为主导的世界正在酝酿之中。



本文作者:刘伟
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
运维 Cloud Native 安全
网关V.S反向代理(上)
网关V.S反向代理
315 0
网关V.S反向代理(上)
|
开发工具 git
SpringCloud - Zuul(一)
SpringCloud - Zuul(一)
203 0
SpringCloud - Zuul(一)
|
开发工具 git
【自然框架】终于把源码弄到git上了。
好久没写博客了,发现又从左面的排名里掉出去了。   说来惭愧,一直说是开源,但是源码一直没能放到git里面。原因是,不会用。   最近终于把git弄明白了。把源码都放进去了。   刚兴趣的话可以来看看。
882 0
|
20天前
|
存储 人工智能 测试技术
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
141061 20
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
|
19天前
|
人工智能 运维 前端开发
基于阿里百炼的DeepSeek-R1满血版模型调用【零门槛保姆级2084小游戏开发实战】
本文介绍基于阿里百炼的DeepSeek-R1满血版模型调用,提供零门槛保姆级2048小游戏开发实战。文章分为三部分:定位与核心优势、实战部署操作指南、辅助实战开发。通过详细步骤和案例展示,帮助开发者高效利用DeepSeek-R1的强大推理能力,优化游戏逻辑与视觉效果,解决官网响应延迟问题,提升开发效率和用户体验。适合企业开发者、教育行业及多模态探索者使用。
70896 17
基于阿里百炼的DeepSeek-R1满血版模型调用【零门槛保姆级2084小游戏开发实战】
|
27天前
|
人工智能 自然语言处理 Shell
深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。
仅用3分钟,百炼调用满血版Deepseek-r1 API,享受百万免费Token。阿里云提供零门槛、快速部署的解决方案,支持云控制台和Cloud Shell两种方式,操作简便。Deepseek-r1满血版在推理能力上表现出色,尤其擅长数学、代码和自然语言处理任务,使用过程中无卡顿,体验丝滑。结合Chatbox工具,用户可轻松掌控模型,提升工作效率。阿里云大模型服务平台百炼不仅速度快,还确保数据安全,值得信赖。
358010 62
深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。
|
23天前
|
人工智能 自然语言处理 API
快速使用 DeepSeek-R1 满血版
DeepSeek是一款基于Transformer架构的先进大语言模型,以其强大的自然语言处理能力和高效的推理速度著称。近年来,DeepSeek不断迭代,从DeepSeek-V2到参数达6710亿的DeepSeek-V3,再到性能比肩GPT-4的DeepSeek-R1,每次都带来重大技术突破。其开源策略降低了AI应用门槛,推动了AI普惠化。通过阿里云百炼调用满血版API,用户可以快速部署DeepSeek,享受高效、低成本的云端服务,最快10分钟完成部署,且提供免费token,极大简化了开发流程。
191012 23
快速使用 DeepSeek-R1 满血版
|
8天前
|
人工智能 搜索推荐 数据可视化
Manus:或将成为AI Agent领域的标杆
随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独特的技术优势和市场表现,有望成为该领域的标杆。作为资深AI工程师,本文将深入探讨Manus的背景知识、主要业务场景、底层原理、功能的优缺点,并尝试使用Java搭建一个属于自己的Manus助手,以期为AI Agent技术的发展和应用提供参考。
11071 13
|
8天前
|
机器学习/深度学习 人工智能 测试技术
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。