运维

首页 标签 运维
# 运维 #
关注
37454内容
120_检查点管理:故障恢复 - 实现分布式保存机制
在大型语言模型(LLM)的训练过程中,检查点管理是确保训练稳定性和可靠性的关键环节。2025年,随着模型规模的不断扩大,从百亿参数到千亿参数,训练时间通常长达数周甚至数月,硬件故障、软件错误或网络中断等问题随时可能发生。有效的检查点管理机制不仅能够在故障发生时快速恢复训练,还能优化存储使用、提高训练效率,并支持实验管理和模型版本控制。
57_大模型监控与运维:构建稳定可靠的服务体系
随着大语言模型(LLM)技术的快速发展和广泛应用,如何确保模型在生产环境中的稳定运行、高效服务和安全合规已成为企业和开发者面临的关键挑战。2025年,大模型服务已从实验室走向各行各业的核心业务流程,其运维复杂度也随之呈指数级增长。与传统软件系统不同,大模型服务具有参数规模庞大、计算密集、行为不确定性高等特点,这使得传统的运维监控体系难以满足需求。
|
1月前
|
《时序数据监控平台优化指南:从查询超时到秒级响应,指标下的存储与检索重构实践》
本文聚焦企业级时序数据监控平台优化,针对InfluxDB单节点在2500台设备、2亿条日均数据下的查询超时、存储成本失控、降采样数据丢失、多维度查询卡顿等问题,提出“分层存储+预计算降采样+索引重构”方案。按数据热度分热(7天内,Redis+SSD)、温(7-90天,SSD)、冷(90天以上,OSS)三层存储,搭配生命周期管理服务实现数据流转;按指标类型定制预计算聚合规则,减少查询计算量;通过复合哈希索引、标签字典编码、bitmap索引优化多维度检索。
|
1月前
| |
来自: 云存储
基于 Cloudflare Workers 构建高性能知识库镜像服务:反向代理与 HTML 动态重写实践
基于Cloudflare Workers构建的边缘计算镜像服务,通过反向代理、HTML动态重写与智能缓存,优化维基百科等知识平台的访问性能。支持路径映射、安全头清理与容错回退,实现免运维、低延迟、高可用的Web加速方案,适用于教育、科研等合规场景。
|
1月前
| |
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
|
1月前
|
Redis 7.0 高性能缓存架构设计与优化
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Redis 7.0高性能缓存架构,探索函数化编程、多层缓存、集群优化与分片消息系统,用代码在二进制星河中谱写极客诗篇。
除了Kettle,这款国产ETL工具是否更胜一筹?
本文深度对比Kettle与国产ETL工具FineDataLink,从开发效率、实时同步、运维管理等维度解析差异。Kettle开源灵活但学习成本高,FDL在实时处理、低代码开发、调度监控等方面优势明显,更适合企业级应用,助力高效数据集成与管理。
|
2月前
|
阿里云 API 聚合实战:破解接口碎片化难题,3 类场景方案让业务响应提速 60%
API聚合破解接口碎片化困局,助力开发者降本增效。通过统一中间层整合微服务、第三方接口与AI模型,实现调用次数减少60%、响应提速70%。阿里云实测:APISIX+函数计算+ARMS监控组合,支撑百万级并发,故障定位效率提升90%。
免费试用