首个云上 AI 原生全栈可观测平台来了!

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
性能测试 PTS,5000VUM额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 9月21日,2024 云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。

9月21日,2024云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。


阿里云可观测产品家族实现全新升级,最常用的日志服务 SLS 相较于自建体系,运维监控综合成本可降低 30%。


AI 模型的深入发展,导致了数据处理方式与技术架构的深刻变化,相关应用产生的日志、链路等可观测数据规模呈指数级增长,数据结构复杂度也与日俱增,而 AI 部署的异构环境、资源及平台也越发多元,都给可观测性的准确、实时、高效与智能化发展带来了巨大挑战。

image.png

阿里云云原生应用平台负责人丁宇表示,“以阿里云可观测产品家族为代表的云原生可观测工具,正引领着 AI-native 可观测加速迈向智能化。企业用户可以像‘搭积木’一样轻松、灵活地构建可观测体系,更高效地管理与观测 IT 资源与服务,为 AI 创新夯实技术底座。”


今天,阿里云宣布日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 等可观测产品家族重磅更新,面向模型训练、推理及应用提供全链路的可观测服务。

image.png

在模型训练场景中,云监控 CMS 与阿里云 AI 算力产品及平台深度集成,全面采集计算、存储、网络调度等 AI 基础设施的可观测数据,有效覆盖数据准备、模型开发、训练和部署等环节,确保模型训练全流程可感知、可观测,为企业在 AI 基础设施的容量管理和可用性保障保驾护航。


在模型推理场景中,可观测性更多聚焦于推理性能提升、模型输入输出的质量优化及资源消耗的有效管理。应用实时监控服务 ARMS 推出符合 OpenTelemetry 标准的自研 Python Agent,全面支持通义千问/ LLamaIndex / LangChain 等国内外主流框架和模型,采集丰富的指标、链路及持续剖析数据,借助开箱即用的数据可视化大盘与性能诊断功能,确保用户实时掌握模型运行状态及潜在瓶颈,为大模型应用的稳定运行与高效运维提供坚实的基础。


与此同时,日志服务 SLS 与大模型服务平台百炼深度集成,实现百炼模型 API 层面的可观测指标全覆盖,并应用于性能观测、稳定性评估、成本管控、安全合规等不同应用场景,帮助企业优化资源配置和业务决策。同时,SLS 核心能力大幅提升,扫描性能提升 10 倍,达到 1GB/s 以上;处理性能提升至 TB 级每分钟,单 GB 处理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相较于自建其综合成本可降30% 以上。


据悉,阿里云已为全球 80 余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。


  • 茶百道基于 ARMS 快速建立运维观测与响应能力,故障恢复效率提升 50% 以上;
  • 传音借助 Prometheus、Grafana 等可观测产品,业务上线效率提高 60%;
  • 极氪基于阿里云可观测产品推行的应急响应机制与 ChatOps 协同机制,告警平均恢复耗时缩短 50%。

image.png

image.png

image.png

image.png

image.png

云栖大会剪影

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
8天前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
10天前
|
云安全 人工智能 安全
|
4天前
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
|
3天前
|
人工智能 Prometheus Cloud Native
新场景、新能力,AI-native 时代的可观测革新
借助 AI-native 可观测解决方案,阿里云为用户提供开箱即用的覆盖大模型应用、大模型到基础设施的全链路实时观测、告警与诊断能力,帮助企业在复杂的数字化转型过程中更有效地确保资源的高效利用与业务的持续成功。
|
5天前
|
人工智能 Cloud Native Java
新趋势、新开源、新实践|云栖大会 AI 原生应用架构专场邀您参会
新趋势、新开源、新实践|云栖大会 AI 原生应用架构专场邀您参会
|
5天前
|
人工智能 分布式计算 大数据
AI Native平台,跨越AI应用从创新到生产的鸿沟
2024年是AI应用的元年,以大模型为中心的 AI Native 应用大爆发正在从理想变成现实。云计算带来的应用创新潮,经历了虚拟机时代和云原生时代,正在全面拥抱以大模型为核心的 AI Native 阶段,推动大数据与AI的工作流前所未有地紧密结合。领先大模型、高效的AI计算平台和统一的大数据平台是 AI Native 应用广泛落地背后不可获缺的要素。 9月20日,2024云栖大会上,阿里云副总裁、阿里云计算平台事业部负责人汪军华宣布大数据AI平台全面升级,为 AI Native 应用大爆发提供坚实的平台支撑。
|
13天前
|
消息中间件 人工智能 运维
|
8天前
|
人工智能 运维 安全
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
分享了关于 AI 原生化趋势下服务器操作系统进化的思考,以及浪潮信息在龙蜥社区开源贡献的思路、成果与未来技术发展规划。
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
|
8天前
|
机器学习/深度学习 传感器 人工智能
AI与未来医疗:重塑健康管理新格局随着人工智能(AI)技术的飞速发展,医疗行业正迎来一场前所未有的变革。AI不仅在数据分析、诊断支持方面展现出巨大潜力,还在个性化治疗、远程医疗等多个领域实现了突破性进展。本文将探讨AI技术在医疗领域的具体应用及其对未来健康管理的影响。
人工智能(AI)正在彻底改变医疗行业的面貌。通过深度学习算法和大数据分析,AI能够迅速分析海量的医疗数据,提供精准的诊断和治疗建议。此外,AI在远程医疗、药物研发以及患者管理等方面也展现出了巨大的潜力。本文将详细探讨这些技术的应用实例,并展望其对健康管理的深远影响。
|
7天前
|
人工智能 运维 云计算
阿里云无影AI云电脑亮相 体验大幅升级
9月20日,2024云栖大会上阿里云无影AI云电脑全新亮相,基于最新的终端云计算技术和AI大模型能力,无影的综合体验大幅提升,新增了弹性升降配、双网自由切换、多端操作系统知识库问答、编码大师等AI智能体功能,为安全办公、个人娱乐带来全新的云上流畅体验,更可畅玩《黑神话:悟空》等3A游戏大作。同时,无影还宣布向开发者全面开放应用中心生态,开发者可免费入驻。