首个云上 AI 原生全栈可观测平台来了!

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
性能测试 PTS,5000VUM额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 9月21日,2024 云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。

9月21日,2024云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。


阿里云可观测产品家族实现全新升级,最常用的日志服务 SLS 相较于自建体系,运维监控综合成本可降低 30%。


AI 模型的深入发展,导致了数据处理方式与技术架构的深刻变化,相关应用产生的日志、链路等可观测数据规模呈指数级增长,数据结构复杂度也与日俱增,而 AI 部署的异构环境、资源及平台也越发多元,都给可观测性的准确、实时、高效与智能化发展带来了巨大挑战。

image.png

阿里云云原生应用平台负责人丁宇表示,“以阿里云可观测产品家族为代表的云原生可观测工具,正引领着 AI-native 可观测加速迈向智能化。企业用户可以像‘搭积木’一样轻松、灵活地构建可观测体系,更高效地管理与观测 IT 资源与服务,为 AI 创新夯实技术底座。”


今天,阿里云宣布日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 等可观测产品家族重磅更新,面向模型训练、推理及应用提供全链路的可观测服务。

image.png

在模型训练场景中,云监控 CMS 与阿里云 AI 算力产品及平台深度集成,全面采集计算、存储、网络调度等 AI 基础设施的可观测数据,有效覆盖数据准备、模型开发、训练和部署等环节,确保模型训练全流程可感知、可观测,为企业在 AI 基础设施的容量管理和可用性保障保驾护航。


在模型推理场景中,可观测性更多聚焦于推理性能提升、模型输入输出的质量优化及资源消耗的有效管理。应用实时监控服务 ARMS 推出符合 OpenTelemetry 标准的自研 Python Agent,全面支持通义千问/ LLamaIndex / LangChain 等国内外主流框架和模型,采集丰富的指标、链路及持续剖析数据,借助开箱即用的数据可视化大盘与性能诊断功能,确保用户实时掌握模型运行状态及潜在瓶颈,为大模型应用的稳定运行与高效运维提供坚实的基础。


与此同时,日志服务 SLS 与大模型服务平台百炼深度集成,实现百炼模型 API 层面的可观测指标全覆盖,并应用于性能观测、稳定性评估、成本管控、安全合规等不同应用场景,帮助企业优化资源配置和业务决策。同时,SLS 核心能力大幅提升,扫描性能提升 10 倍,达到 1GB/s 以上;处理性能提升至 TB 级每分钟,单 GB 处理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相较于自建其综合成本可降30% 以上。


据悉,阿里云已为全球 80 余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。


  • 茶百道基于 ARMS 快速建立运维观测与响应能力,故障恢复效率提升 50% 以上;
  • 传音借助 Prometheus、Grafana 等可观测产品,业务上线效率提高 60%;
  • 极氪基于阿里云可观测产品推行的应急响应机制与 ChatOps 协同机制,告警平均恢复耗时缩短 50%。

image.png

image.png

image.png

image.png

image.png

云栖大会剪影

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
4天前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
42 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
111 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
3天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
18天前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
76 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
1月前
|
消息中间件 人工智能 自然语言处理
基于事件驱动构建 AI 原生应用
AI 应用在商业化服务的阶段会面临诸多挑战,比如更快的服务交付速度,更实时、精准的结果以及更人性化的体验等,传统架构限制于同步交互,无法满足上述需求,本篇文章给大家分享一下如何基于事件驱动架构应对上述挑战。
|
26天前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
45 6
|
1月前
|
人工智能 Cloud Native 安全
从云原生到 AI 原生,谈谈我经历的网关发展历程和趋势
本文整理自阿里云智能集团资深技术专家,云原生产品线中间件负责人谢吉宝(唐三)在云栖大会的精彩分享。讲师深入浅出的分享了软件架构演进过程中,网关所扮演的各类角色,AI 应用的流量新特征对软件架构和网关所提出的新诉求,以及基于阿里自身实践所带来的开源贡献和商业能力。
82 6
|
1月前
|
人工智能 供应链 安全
AI辅助安全测试案例某电商-供应链平台平台安全漏洞
【11月更文挑战第13天】该案例介绍了一家电商供应链平台如何利用AI技术进行全面的安全测试,包括网络、应用和数据安全层面,发现了多个潜在漏洞,并采取了有效的修复措施,提升了平台的整体安全性。
|
1月前
|
人工智能 Cloud Native 算法
|
1月前
|
存储 人工智能 文字识别
利用AI能力平台实现档案馆纸质文件的智能化数字处理
在传统档案馆中,纸质文件管理面临诸多挑战。AI能力平台利用OCR技术,通过图像扫描、预处理、边界检测、文字与图片分离、文字识别及结果存储等步骤,实现高效数字化转型,大幅提升档案处理效率和准确性。
下一篇
DataWorks