运维

首页 标签 运维
# 运维 #
关注
37863内容
阿里云 Tair 基于 3FS 工程化落地 KVCache:企业级部署、高可用运维与性能调优实践
阿里云 Tair KVCache 团队联合硬件团队对 3FS 进行深度优化,通过 RDMA 流量均衡、小 I/O 调优及全用户态落盘引擎,提升 4K 随机读 IOPS 150%;增强 GDR 零拷贝、多租户隔离与云原生运维能力,构建高性能、高可用、易管理的 KVCache 存储底座,助力 AI 大模型推理降本增效。
|
3天前
|
赛题解读Introduction | 土木工程赛道Civil Engineering Track
首届国际工程智能大赛启动!聚焦土木工程赛道,挑战桥梁关键构件智能网格生成。融合AI与结构力学,推动BIM与有限元分析高效协同,提升计算精度与效率,助力“交通强国”与新基建发展。
一场FullGC故障排查
本文记录了一次由Full GC引发的CPU使用率异常问题排查过程。通过分析JVM堆内存发现,大对象(List<Map>)导致老年代频繁占满,触发Full GC,进而引起CPU飙升。结合JPofiler工具定位到代码中Excel数据加载逻辑存在内存膨胀问题,最终提出优化方案并总结排查思路。
Redis:内存陡增100%深度复盘
一次Redis崩溃事故复盘:大KEY导致带宽占满,触发缓冲区激增,内存被耗尽。虽有淘汰策略,但缓冲区内存不受其控制,最终引发全面超时。根本原因非数据膨胀,而是客户端输出/输入缓冲区失控,叠加主线程阻塞,造成雪崩。
XXLJOB:超长定时任务慢节点优化实践
本文针对ODPS大宽表任务耗时严重问题,通过定位卡点、资源调优与数据倾斜处理实现快速止血,并深入梳理代码结构,发现计算堆积、动态倾斜及回刷成本高等问题。最终提出视图落表、前置裁剪、分布式MapJoin优化及节点拆分等方案,将产出时间从13:00提前至8:30,提升效率4小时以上,显著降低资源消耗与维护成本。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,助力用户实时掌握SQL使用情况,识别异常、优化性能,提升日志数据分析效率与治理水平。
生产环境缺陷管理
在大型团队中,多分支开发易导致bug漏修、漏发,引发严重生产事故。我们基于go-git打造通用化工具git-poison,实现bug的分布式追溯与管理,自动阻塞带毒版本发布,精准识别影响范围,降低协同成本与人为失误,真正实现“做不错”的bug防控体系,已在内部落地并稳定运行一年以上。
如何基于关键词进行拆分?
基于关键词拆分可减少搜索请求复制,提升效率。将词典分片存储于不同服务器,查询时按关键词定位分片,避免全量请求。但存在管理复杂、高频词性能差、负载不均等问题,多用于高性能场景,通用系统仍倾向文档级拆分以保障可维护性与扩展性。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,帮助用户全面掌握SQL使用情况,精准识别性能瓶颈与无效请求,提升日志分析效率与资源管理水平。
生产环境缺陷管理
git-poison基于go-git实现分布式bug追溯,解决多分支开发中bug漏修、漏发问题。通过“投毒-解毒”机制,自动化卡点发布流程,降低协同成本,避免人为失误,已在大型团队落地并有效拦截多起生产故障。(239字)
免费试用