Gartner 报告:阿里语音语义技术全球第二,创中国企业最好成绩

简介: 7月7日消息,国际权威研究机构 Gartner 近日公布《云 AI 开发者服务关键能力报告》,阿里在语音语义领域位居全球第二,超越亚马逊 AWS、微软等企业。

7月7日消息,国际权威研究机构 Gartner 近日公布《云 AI 开发者服务关键能力报告》,阿里在语音语义领域位居全球第二,超越亚马逊 AWS、微软等企业。

其中,阿里在语音识别语音合成自然语言理解/处理文本分析这四项 AI 关键能力评分中获得第一。这是该报告发布以来,中国企业在该领域获得的最好成绩。

*阿里在语音语义领域位居全球第二

*在 AI 关键能力评分中,阿里语音识别及语音合成位列第一

该报告围绕语音语义、计算机视觉、机器学习平台三大维度,对全球云 AI 服务厂商进行评估排名。其中,语音语义领域的评分由语音识别、语音合成、自然语言理解/处理、机器翻译、情感分析、文本分析六项能力组成。

Gartner 认为,到 2025 年,70% 的新应用将集成 AI 模型,云 AI 服务可有效降低 AI 应用的开发门槛语音语义作为人工智能领域的基础技术,过去几年已拥有诸多技术突破,尤其是以 Bert、Transformer、wav2vec 为代表的预训练模型结构将相关研究推向了高潮,让通用人工智能的实现成为可能。作为最早投入预训练语言模型研究的团队之一,达摩院在阿里云的基础设施之上,研发了深度语言大模型体系 AliceMind,包括通用预训练模型 StructBERT、多语言预训练模型 VECO、超大中文预训练模型 PLUG 等,具备阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力,该技术体系先后斩获 35 个冠军,并面向全球开发者开源。智能语音方面,达摩院基于自主研发的 SAN-M 网络结构和 SCAMA 流式端到端语音识别框架,构建了 Universal-ASR 系统,单个系统可以同时满足不同业务场景对延时和准确率的要求,在提升计算效率、降低服务成本的同时,还能将高难度场景中的语音识别错误率降低近三成。同时,达摩院提出并大规模落地应用创新的语音合成技术 SAMBERT, 在情感、韵律、音质等多个维度优化建模,构建了新一代个性化高表现力语音合成框架。目前,达摩院语音语义领域的研究已有 300 多篇论文被国际顶会收录,研究成果已应用于医疗、电力、司法、电商等领域。在最新的 IDC2021H2 中国 AI 云服务市场研究报告中,阿里亦斩获了语音和语义公共云市场两项第一。这意味着阿里语音语义在产品技术实力和应用落地上均位居行业前列。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
Python Windows
Python 获取视频时长(附代码) | Python工具
Python 获取视频时长(附代码) | Python工具
Python 获取视频时长(附代码) | Python工具
|
Java API 数据处理
使用Java内存映射(Memory-Mapped Files)处理大文件
NIO中的内存映射 (1)什么是内存映射文件 内存映射文件,是由一个文件到一块内存的映射,可以理解为将一个文件映射到进程地址,然后可以通过操作内存来访问文件数据。说白了就是使用虚拟内存将磁盘的文件数据加载到虚拟内存的内存页,然后就可以直接操作内存页数据。
8696 0
|
7月前
|
机器学习/深度学习 人工智能 Cloud Native
Anaconda3 2025 深度解析:Python 3.11 + 提速、大模型支持,安装步骤+安装包
Anaconda3 2025 是面向数据科学与AI开发的一站式平台,集成Python环境、包管理与开发工具,支持机器学习、大模型开发及云原生部署,开箱即用,助力高效开发。
2255 2
|
8月前
|
缓存 安全 Java
《深入理解Spring》过滤器(Filter)——Web请求的第一道防线
Servlet过滤器是Java Web核心组件,可在请求进入容器时进行预处理与响应后处理,适用于日志、认证、安全、跨域等全局性功能,具有比Spring拦截器更早的执行时机和更广的覆盖范围。
|
网络协议 网络架构
Ch4.网络层(三)
网络层是OSI参考模型中的第三层,介于传输层和数据链路层之间,它在数据链路层提供的两个相邻端点之间的数据帧的传送功能上,进一步管理网络中的数据通信,将数据设法从源端经过若干个中间节点传送到目的端,从而向传输层提供最基本的端到端的数据传送服务。
3022 0
|
人工智能 自然语言处理 搜索推荐
云栖发布:从级联到端到端语音翻译大模型Gummy
云栖发布:从级联到端到端语音翻译大模型Gummy
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习的未来:从模型架构到应用场景
在信息技术飞速发展的时代,深度学习作为人工智能的核心领域正不断推动科技前沿。本文将探讨深度学习的最新发展趋势,包括模型架构的创新和实际应用场景的拓展。同时,我们将分析当前面临的挑战以及未来可能的发展方向,旨在为读者提供一个全面的视角,了解这一充满潜力的技术领域。
723 27
|
前端开发
什么是 Mock 测试?
Mock 是在前后端分离开发中,用于模拟后端数据的工具,让前端能提前开发而无需等待真实接口。它的重要性在于加速协同开发,避免因数据延迟导致的阻塞。通过工具如 Apifox,可以创建请求,设定 Mock 参数和测试脚本,进行 Mock 测试以确保数据符合预期。了解 Mock.js 语法有助于更好地进行 Mock 测试。
869 1
|
开发框架 缓存 API
【Uniapp 专栏】通过 Uniapp 构建移动办公应用案例分享
【5月更文挑战第12天】使用Uniapp开发的移动办公应用案例展示了其在提升工作效率和协作上的强大能力。应用涵盖日程管理、任务分配、文件共享、即时通讯等功能,适应跨平台需求,节省开发成本。借助Uniapp的组件和API,打造用户友好的界面,同时确保数据安全和稳定性。优化的界面设计及移动设备适应性,即使在网络不稳定时也能保证基本功能使用。此案例证明Uniapp是构建高效移动办公应用的理想选择,为企业数字化转型赋能。
582 5
|
存储
我们常听到Kbps、Mbps、Gbps它们分别的含义?
我们总听的有些单位Kbps、Mbps、Gbps,但有的人可能搞不懂Kbps、Mbps、Gbps代表什么意思?那我们今天就简单的介绍下它们分别的含义吧。先诠释下Bps,即Bits per Second的缩写,是数据传输速度的常见单位。
27852 0