正式进军云服务器市场,高通发布Cloud AI 100推理芯片

简介: 高通此举意欲正面对标英伟达与Intel。

高通此举意欲正面对标英伟达与Intel。

提起高通,业内对它的直接印象就是移动芯片领域的巨头。一直以来,高通也确实只在移动通信领域深耕,并从芯片到底层平台一揽子都包下。而现在,高通冷不丁扔出的一枚“炸弹”也将一改以往大家对它的认知。

据悉,在旧金山举行的高通AI Day活动上,这家巨头正式宣布进军云计算市场,并发布了面向人工智能推理计算的专用 AI 加速器:Qualcomm Cloud AI 100。高通表示,Cloud AI 100 系列加速器基于 7 纳米芯片工艺,将于 2020 年推出产品,样片将在今年晚些时候公布。没有任何预告,继谷歌、亚马逊和英伟达之后,高通成为第四家成功在云端推理上正式发布芯片的公司。

TB1Q.gJQXzqK1RjSZFoXXbfcXXa.jpg

根据高通的定义,Cloud AI 100是一枚面向“人工智能推理”的专用 AI 加速器 (purpose-built AI Accelerator),它集成了各种开发工具包括编译器、分析器、监视器、服务、芯片调试器和量化,让客户能够根据AI 推理处理任务需求而调整模块设计、外形和功率级别。

据悉,Cloud AI 100的峰值性能是Snapdragon 855和 Snapdragon 820的3到50倍;与传统的 FPGA 相比,它的推理速度提高了约 10 倍。在软件架构上,它支持ONNX、Glow和XLA,以及包括谷歌的TensorFlow、Facebook 的PyTorch、Keras、MXNet、百度的PaddlePaddle和微软的认知工具包在内的大部分深度学习框架。

关于具体的技术细节,高通并未透露过多,目前将其与竞品做简单的横向比较并不适合。不过为方便理解,可以将谷歌TPU一代的数据放出来以作参考:Cloud AI 100的运算性能可以达到350TOPS;Google TPU一代在250W下的测试结果是92TOPS。

毋庸置疑,随着云计算和人工智能技术对各项场景的深入,推理运算需求将会持续上涨,在这片蓝海面前,高通无疑是要抢夺一部分市场,意欲正面对标“志在必得”的英伟达和Intel。

相关实践学习
使用操作系统智能助手OS Copilot解锁操作系统运维与编程
在本实验场景中,将在阿里云ECS上体验OS Copilot产品。OS Copilot是阿里云操作系统团队基于大模型构建的OS智能助手。它具有自然语言问答、辅助命令执行、系统运维调优等功能,帮助用户更好地使用Linux,提升阿里云的使用体验。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1110 125
|
8月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
5月前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
6月前
|
存储 人工智能 NoSQL
用Context Offloading解决AI Agent上下文污染,提升推理准确性
上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。
706 2
用Context Offloading解决AI Agent上下文污染,提升推理准确性
|
6月前
|
人工智能
AI推理方法演进:Chain-of-Thought、Tree-of-Thought与Graph-of-Thought技术对比分析
大语言模型推理能力不断提升,从早期的规模扩展转向方法创新。2022年Google提出Chain-of-Thought(CoT),通过展示推理过程显著提升模型表现。随后,Tree-of-Thought(ToT)和Graph-of-Thought(GoT)相继出现,推理结构由线性链条演进为树状分支,最终发展为支持多节点连接的图网络。CoT成本低但易错传,ToT支持多路径探索与回溯,GoT则实现非线性、多维推理,适合复杂任务。三者在计算成本与推理能力上形成递进关系,推动AI推理向更接近人类思维的方向发展。
413 4
|
6月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
7月前
|
存储 人工智能 编解码
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
在AI与高性能计算需求激增的今天,传统CPU已难满足“暴力计算”需求。阿里云GPU云服务器依托NVIDIA顶级显卡算力,结合专为GPU优化的神行工具包(DeepGPU),为深度学习、科学计算、图形渲染等领域提供高效、弹性的算力支持。本文全面解析其产品优势、工具链及六大真实应用场景,助你掌握AI时代的算力利器。
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
|
7月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
1260 1

热门文章

最新文章