GPU云服务器的搜索结果_文章_第17页-阿里云开发者社区

技术内容小助手

|

8月前

|

博文

|

阿里云容器服务团队在2024年继续蝉联Gartner亚洲唯一全球领导者象限，其可观测体系是运维的核心能力之一。该体系涵盖重保运维、大规模集群稳定性、业务异常诊断等场景，特别是在AI和GPU场景下提供了全面的观测解决方案。通过Tracing、Metric和Log等技术，阿里云增强了对容器网络、存储及多集群架构的监控能力，帮助客户实现高效运维和成本优化。未来，结合AI助手，将进一步提升问题定位和解决效率，缩短MTTR，助力构建智能运维体系。

# 容器服务Kubernetes版 # GPU云服务器 # 日志服务 # 人工智能 # 运维 # 监控 # 异构计算 # 容器

技术内容小助手

|

8月前

|

博文

|

来自：大数据与机器学习

面向AI的服务器计算互连的创新探索

面向AI的服务器计算互连创新探索主要涵盖三个方向：Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能，支持大规模模型训练，满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战，自研EIC网卡提供400G带宽和RDMA卸载加速，优化网络传输。CIPU作为云基础设施核心，支持虚拟化、存储与网络资源池化，提升资源利用率和稳定性，未来将扩展至2*800G带宽，全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。

# GPU云服务器 # 存储 # 人工智能 # 芯片 # 异构计算 # RDMA

aliyun4381607004

|

8月前

|

博文

|

来自：大数据与机器学习

阿里云PAI-部署Qwen2-VL-72B

阿里云PAI-部署Qwen2-VL-72B踩坑实录

# 容器镜像服务 # GPU云服务器 # 人工智能平台 PAI # 对象存储 # 专有网络VPC # 并行计算 # PyTorch # 算法框架/工具 # Python # 容器

技术内容小助手

|

8月前

|

博文

|

来自：弹性计算

面向AI的服务器计算软硬件架构实践和创新

阿里云在新一代通用计算服务器设计中，针对处理器核心数迅速增长（2024年超100核）、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题，推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径，优化散热支持600瓦TDP，并实现CIPU节点比例灵活配比及部件模块化可插拔设计，提升运维效率和客户响应速度。此外，还介绍了面向AI的服务器架构挑战与软硬件结合创新，包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后，探讨了大模型高效推理中的显存优化和量化压缩技术，旨在降低部署成本并提高系统效率。

# GPU云服务器 # 存储 # 人工智能 # 运维 # 芯片 # 异构计算

技术内容小助手

|

8月前

|

博文

|

来自：无影

无影云电脑，畅享极速渲染新体验

本文介绍了渲染行业面临的挑战及无影云电脑带来的革新。传统渲染依赖高性能本地设备，面临重投入、性能固定、灵活性差和数据安全问题。无影云电脑通过云端算力，实现了灵活扩展、任意终端接入及按需付费，大幅提升了渲染效率与体验，尤其在游戏设计、工业制造等领域表现突出。其核心技术确保了色彩还原、流畅操作及外设兼容性，满足专业设计师的需求。未来，无影将助力渲染行业实现更高效、安全的云端工作模式。

# GPU云服务器 # 无影云电脑 # 开发框架 # 运维 # 安全 # 云计算 # 异构计算

Asher_hss

|

9月前

|

博文

结合CAMEL框架与QWEN实现数据合成，奖励模型评估和数据过滤工作流

本笔记本展示了如何结合CAMEL框架与QWEN实现数据合成、奖励模型评估和数据过滤的工作流。通过CAMEL的多代理系统，支持复杂AI任务的数据生成与评估。我们使用Firecrawl加载器从网页获取内容，并利用NVIDIA的Nemotron奖励模型对生成的数据进行评分和过滤。最后，通过设定阈值筛选高质量的数据条目。整个过程包括安装依赖、输入API密钥、定义数据生成函数、评估生成数据的质量以及过滤低质量数据。此方法适用于需要评估和优化AI生成内容的各种场景。

# GPU云服务器 # 存储 # 人工智能 # 自然语言处理 # 安全 # API

技术内容小助手

|

9月前

|

博文

|

来自：云原生

容器服务：智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享

容器技术已经发展成为云计算操作系统的关键组成部分，向下高效调度多样化异构算力，向上提供统一编程接口，支持多样化工作负载。阿里云容器服务在2024年巴黎奥运会中提供了稳定高效的云上支持，实现了子弹时间特效等创新应用。此外，容器技术还带来了弹性、普惠的计算能力升级，如每分钟创建1万Pod和秒级CPU资源热变配，以及针对大数据与AI应用的弹性临时盘和跨可用区云盘等高性能存储解决方案。智能运维方面，推出了即时弹性节点池、智能应用弹性策略和可信赖集群托管运维等功能，进一步简化了集群管理和优化了资源利用率。

# 容器服务Kubernetes版 # 云服务器 ECS # GPU云服务器 # 云原生大数据计算服务 MaxCompute # 服务网格 # 存储 # 人工智能 # 调度 # 异构计算 # 容器

技术内容小助手

|

9月前

|

博文

|

来自：弹性计算

阿里云弹性计算稳定性最佳实践

本文介绍了ECS实例稳定性最佳实践的重要性及其具体实施方法。首先，阐述了ECS作为底层基础设施，其稳定性对业务连续性至关重要，并通过一系列工程化方法构建稳定的基础架构。其次，详细描述了用户如何通过合适规格选择、操作系统更新、事件响应机制等手段规避风险，提升业务稳定性。此外，还探讨了实例Panic风险消除、故障诊断及自动分析等技术细节，以及通过云助手插件实现自动化监控和故障处理的最佳实践。最后，分享了制造业客户的实际案例，展示了如何有效解决大规模Panic事件，确保业务的持续稳定运行。通过这些措施，用户可以充分利用ECS的稳定性优势，保障业务的高效与可靠。

# 容器镜像服务 # 容器服务Kubernetes版 # 云解析DNS # 云服务器 ECS # GPU云服务器 # 云数据库 RDS MySQL 版 # 对象存储 # 负载均衡 # 日志服务 # 专有网络VPC # 存储 # 弹性计算 # Kubernetes # 容灾 # 容器

技术内容小助手

|

9月前

|

博文

|

来自：大数据与机器学习

推理降本与提升资源效率的实践

本课程从业务角度探讨大模型推理部署及资源利用率提升。首先分析大模型与GPU发展趋势，包括模型开源、规模增长及多模态能力增强；其次介绍高效部署大模型推理业务的步骤，涵盖业务场景选择、架构优化及显存规划；接着讲解如何通过DeepCPU-LLM框架和DeepNCCL通讯库优化推理效率；最后探讨通过KuberGPU实现细粒度GPU资源管理，提升整体资源利用率，降低推理成本。

# 容器服务Kubernetes版 # GPU云服务器 # 自然语言处理 # Kubernetes # 异构计算 # 容器 # Perl

技术内容小助手

|

9月前

|

博文

|

来自：弹性计算

灵骏智算实例异常预测技术

本文介绍了灵骏智算实例异常预测技术，旨在提前预测GPU等设备的故障，确保大模型训练的稳定性。文章首先探讨了为何需要进行异常预测，指出大规模GPU集群在大模型训练中面临的稳定性挑战。接着阐述了预测的可行性和原理，通过分析复杂系统中的小异常逐步积累导致故障的现象，利用时序指标和关键指标分布模式进行预测。目前该技术可在1-250分钟内提前预测故障，准确率达95%以上，召回率超过20%。最后介绍了系统的集成与应用，强调了端侧部署预测模型的优势，包括降低网络开销、保护用户数据隐私等。

# GPU云服务器 # 机器学习/深度学习 # 运维 # 监控 # 算法 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

GPU云服务器