六个人如何运维一万台服务器?
我 2013 年加入去哪儿网,一直在从事运维开发工作。去哪儿网运维开发有一个特点,所有开发既当 PM,又当 QA,也没有区分前端工作还是后端工作,用现在比较流行的话说,我们都是全栈工程师。
加入去哪儿这几年,我做的工作也是比较零碎的,哪里有需求就去哪里。
Kubeflow实战系列:阿里云上小试TFJob
`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。
Alluxio使用——开篇
一.Alluxio概述
Alluxio(前身Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。
Alluxio项目源自加州大学伯克利分校AMPLab,作为伯克利数据分析堆栈(BDAS)的数据访问层。
容器日志采集利器Log-Pilot
容器时代越来越多的传统应用将会逐渐容器化,而日志又是应用的一个关键环节,那么在应用容器化过程中,如何方便快捷高效地来自动发现和采集应用的日志,如何与日志存储系统协同来高效存储和搜索应用日志,本文将主要跟大家分享下如何通过Log-Pilot来采集容器的标准输出日志和容器内文件日志。
MongoDB journal 与 oplog,究竟谁先写入?
MongoDB journal 与 oplog,谁先写入?最近经常被人问到,本文主要科普一下 MongoDB 里 oplog 以及 journal 这两个概念。
journal
journal 是 MongoDB 存储引擎层的概念,目前 MongoDB主要支持 mmapv1、wiredtiger、mongorocks 等存储引擎,都支持配置journal。
Tideways和xhgui打造PHP非侵入式监控平台
当我们发现生产环境的某个接口执行时间特别长时应该怎么做?是不是直接登录线上机器单步调试?或者打大量的log然后分析? 一般我们可以把分析流程分为如下几步操作:
分析开发环境下执行是否会慢;
如果是代码问题,在开发环境下就能检测出来;
分析预发环境执行是否会慢;
如果是数据库或者第三方扩展问题,在预发环境就能检查出来。
Elasticsearch实例磁盘占用率高排查及解决
开源 ES 实例健康状态
首先,先介绍下开源 Elasticsearch 的三种健康状态:绿色、黄色和红色。
在分片层面,
绿色:所有的主分片和副本分片都已分配。你的集群是 100% 可用的。
黄色:所有主分片都已经分配,但至少有一个副本分片未被分配。