Cloud Native的搜索结果_第8页-阿里云开发者社区

阿里云云原生

|

1月前

|

博文

|

来自：云原生

2025 云栖精选资料：《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载

一本合集，四大主题，覆盖 AI 原生技术的核心版图。立即获取，与行业领跑者同行，抢占 AI 原生时代的技术先机！

# 日志服务 # 函数计算 # 应用实时监控服务 # Serverless 应用引擎 # 微服务引擎 # 云消息队列 MQ # 人工智能 # 运维 # Cloud Native # 中间件 # Serverless

Serverless小助手

|

1月前

|

博文

|

来自：云原生

阿里云函数计算 AgentRun 全新发布，构筑智能体时代的基础设施

阿里云推出以函数计算为核心的AgentRun平台，通过创新体系解决开发、部署、运维难题，提供全面支持，已在多个真实业务场景验证，是AI原生时代重要基础设施。

# 函数计算 # 人工智能 # 运维 # 安全 # Cloud Native # Serverless

八进智

|

1月前

|

博文

Higress（云原生AI网关）架构学习指南

Higress 架构学习指南 🚀写在前面：嘿，欢迎你来到 Higress 的学习之旅！

# 人工智能 # Kubernetes # Cloud Native # Go # 容器

游客hp4x2qkhydglu

|

1月前

|

博文

拔俗云原生 AI 临床大数据平台：赋能医学科研的开发者实践

AI临床大数据科研平台依托阿里云、腾讯云，打通医疗数据孤岛，提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术，实现跨机构协作与高效训练，助力开发者提升科研效率，推动医学AI创新落地。（238字）

# 云原生大数据计算服务 MaxCompute # 人工智能 # Cloud Native # 算法 # 大数据 # 开发者

aliyun9170107523-43660

|

1月前

|

博文

|

来自： ModelScope模型即服务

136_生产监控：Prometheus集成 - 设置警报与指标选择与LLM部署监控最佳实践

在大语言模型（LLM）部署的生产环境中，有效的监控系统是确保服务稳定性、可靠性和性能的关键。随着LLM模型规模的不断扩大和应用场景的日益复杂，传统的监控手段已难以满足需求。Prometheus作为当前最流行的开源监控系统之一，凭借其强大的时序数据收集、查询和告警能力，已成为LLM部署监控的首选工具。

# 存储 # Prometheus # 监控 # Cloud Native # 异构计算

aliyun9170107523-43660

|

1月前

|

博文

|

来自： ModelScope模型即服务

133_云端扩展：Kubernetes scaling - 设置自动缩放的阈值与LLM部署最佳实践

在大语言模型（LLM）部署的时代，如何高效地管理计算资源、应对动态负载并优化成本，成为了每个AI工程师必须面对的挑战。随着LLM应用的普及，用户请求模式变得日益复杂且难以预测，传统的静态资源配置方式已无法满足需求。Kubernetes作为云原生时代的容器编排平台，其强大的自动扩展能力为LLM部署提供了理想的解决方案。

# 容器服务Kubernetes版 # Kubernetes # Cloud Native # 异构计算 # 容器 # Perl

aliyun9170107523-43660

|

1月前

|

博文

|

来自： ModelScope模型即服务

122_集群管理：Slurm配置 - 优化大规模训练调度

在2025年，大规模语言模型（LLM）的训练已经进入到超大规模时代，模型参数量达到数千亿甚至万亿级别，训练过程需要动用数百甚至数千个GPU/TPU。在这种情况下，高效的集群管理系统成为训练成功的关键基础设施。Slurm（Simple Linux Utility for Resource Management）作为目前最流行的开源作业调度系统，广泛应用于科研机构和大型科技公司的超级计算集群中。

# 监控 # Cloud Native # 网络性能优化 # 调度 # 异构计算

aliyun9170107523-43660

|

1月前

|

博文

|

来自： ModelScope模型即服务

78_资源监控：NVIDIA-SMI进阶

在大语言模型（LLM）训练和推理过程中，GPU资源的高效监控和管理至关重要。随着模型规模的不断增长和计算需求的提升，如何精确监控GPU利用率、及时发现性能瓶颈并进行优化，成为AI研究人员和工程师面临的重要挑战。NVIDIA-SMI作为NVIDIA官方提供的GPU监控工具，提供了丰富的功能来监控和管理GPU资源。本文将深入探讨NVIDIA-SMI的进阶使用方法，以及如何利用其与其他工具结合构建高效的GPU利用率可视化监控系统。

# Prometheus # 监控 # Cloud Native # 数据可视化 # 异构计算

aliyun9170107523-43660

|

1月前

|

博文

|

来自： ModelScope模型即服务

72_监控仪表盘：构建LLM开发环境的实时观测系统

在2025年的大模型(LLM)开发实践中，实时监控已成为确保模型训练效率和生产部署稳定性的关键环节。与传统软件开发不同，LLM项目面临着独特的监控挑战

# Prometheus # 监控 # Cloud Native # API # 异构计算

蒋星熠Jaxonic

|

1月前

|

博文

|

来自：大数据与机器学习

微服务架构实战指南：从单体应用到云原生的蜕变之路

🌟蒋星熠Jaxonic，代码为舟的星际旅人。深耕微服务架构，擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验，探索技术演进的无限可能。

# Cloud Native # Serverless # API # 微服务 # 容器

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Cloud Native