努力减肥中~
暂时未有相关通用技术能力~
阿里云技能认证
详细说明Geo是geographic的缩写,意思是地理的,GeoIP即为IP地理位置数据库,可以根据IP获得地理位置信息。GeoLite2是GeoIP2的免费版本,与GeoIP2数据库相比准确性较差。 GeoIP库可以根据IP地址(支持IPv4 和 IPv6), 定位该IP所在的 洲、经纬度、国家、省市、ASN 等信息。
某用户反馈,特定节点一直拉不起来pod,提示no space left on device.,手动去docker run也是相同的报错 # docker run --name aestools-perf --cap-add CAP_SYS_ADMIN --privileged -ti --rm registry-vpc.cn-beijing.aliyuncs.com/my-nettools/aestools:onlyperf docker: Error response from daemon: error creating overlay mount to /var/li
某用户反馈8月4号凌晨00:30分左右,生产业务平均RT从100ms飙升到1000ms且抖动较大,如图1-1所示,(绿线为8月3号同时间段的RT,蓝线为异常后的RT)
需要使用ingress反向代理某个域名的场景,本场景仅供测试参考,生产环境使用请自行评估
Kubectl-mytop是一个基于metrics-server组件做指标展示的命令行工具,综合kubectl top以及kubectl describe的展示能力,可以提供Kubernetes集群中node以及pod资源请求、资源限制、资源利用率、以及pod数量做排序展示。Kubectl-mytop插件的目的在于弥补当前常用k8s监控工具的不足,便于如资源不均,调度不均,使用率不均等问题的分析定位。如指定node后,可以查看这个node上所有的pod的request,limit,util资源使用等信息并排序输出,支持指定不同namespace的相同的pod label的资源展示,以及过滤指定
某用户由于某些原因,需要在ACK上使用geoip2来限制国家级别的ip访问限制,如只允许中国访问,ingress 已经默认集成了geoip,但是geoip已经很久不维护了,信息不准确,因此促使了本篇文档的产生
ingress的状态码以及证书问题的分析
某用户反馈,头一天晚上21:05左右,某几个deployment的pod被重建了一遍,客户的pod有特殊限制,基本可以保证1个节点上就只有这一个pod独占,客户怀疑后端异常导致
某用户反馈通过ingress建立的websocket长链接,总是会被断开,影响他们的研发平台的使用,导致业务上线受阻
写在前面,查netstat -st的相关信息时,意外获悉nstat这个命令,好使的狠,大家可以试试, 常用的查看丢包的命令 netstat -st | egrep -i "drop|reject|overflowed|listen|filter|reset" --------------------------快乐的分割线------------------ 当执行以下命令查看netstat统计信息来源时,发现一个重要的来源是/proc/net/snmp接口的输出信息 分享给大家
某用户反馈,pod生产出来之后,/etc/resolv.conf配置不对,缺少search相关条目,导致生产环境内部服务调用时无法解析出现异常
客户反馈java设置xms,xmx参数固定8G内存,而pod的limit则为16G, 三番五次出现了pod oom的情况,且oom的时候他的业务进程输出也是8g, 同时promethus的监控对应pod的working_set_memory也是8个多g, 剩下的几个g的内存到底去哪里了呢?
即使在空载的情况下也会偶尔出现明明没什么IO但是看到的%util已经接近100%了,而传统意义上大多数同学会拿util的值来判断这个磁盘是否已经达到了性能瓶颈,这种情况真的是磁盘达到瓶颈了吗?
前几天遇到一个客户反馈的内存问题,大致背景是自建的数据库业务,购买的是阿里云裸金属服务器总是遇到内存不足的情况,每次重启过不了多久就会不断报内存页分配失败,而且无论怎么扩容内存业务改善都不大
某客户反馈,新建的ingress不显示ingress关联slb的公网ip了,与客户沟通后确认创建了两套ingress-controller后出现的问题,创建ingress后的显示效果如下:
SystemTap是一个诊断Linux系统性能或功能问题的开源软件。它使得对运行时的Linux系统进行诊断调式变得更容易、更简单。有了它,开发者或调试人员不再需要重编译、安装新内核、重启动等烦人的步骤。
某客户反馈,ECS上自建nginx server 通过proxy_pass 反向代理 云上k8s集群 nodeport类型的svc,存在大量1s的延迟请求的问题,在nginx所在的ecs上,使用netstat可以看到syn_sent状态的connection,如下图所示,但是在pod所在的worker节点上是看不到syn_RECV状态的connection(nodeport上也无)
某客户反馈,生产业务的应用在做滚动更新时大量502报错,同时生产业务中pod设置了prestop来优雅下线(延迟关闭),但是在滚动更新时依然会有502的问题,由于生产环境流量比较高,决定搭建测试环境模拟复现该问题,实际复现过程中发现,pod切换完成后,客户端访问svc关联的SLB,应用会超时一段时间或者qps下降为0
这个系列文章中我们以实际案例排查,来看一看在容器网络里面,抓包分析问题的技巧,在看这一章之前,建议先看声东同学的《集群网络详解》一文
Linux网络中断的设置与案例分享
这些年陆陆续续写了好多个不同排查点的文档去记录系统起不来,以及root登陆异常的案例
误操作将根目录777之后的恢复方法
进程大量too many open file 的报错,修改/etc/security/limits.conf未生效
TIME_WAIT是TCP连接关闭过程中的一个状态,具体是这么形成的:1 主动关闭端A:发FIN,进入FIN-WAIT-1状态,并等待......2 被动关闭端P:收到FIN后必须立即发ACK,进入CLOSE_WAIT状态,并等待.
背景: 客户反馈,执行sql后无返回,同时抓包没有抓到对应的sql发起访问(实际复现的时候抓到了报文),以及mysql客户端加不加-A 速度不一(不加 -A 要在本地创建一个库表缓存,加了就不创建这个),实际分析下来并没有很难,本文主要为了分享一下该类问题分析的小技巧 1,需要循环执行sql,.
排查过很多次pod网络有问题的场景 ,一直没太弄明白,pod内的网络报文怎么抓,今天遇到一个liveness健康检查失败的问题,liveness是kubelet去访问pod(发生get请求)来确认的,那么对应的访问日志在pod内是可以看到的,因此可以尝试抓包排查,但是pod并不能简简单单的使用tc.
使用TOKEN授权访问api-server在k8s运维场景中比较常见, apiserver有三种级别的客户端认证方式 1,HTTPS证书认证:基于CA根证书签名的双向数字证书认证方式 2,HTTP Token认证:通过一个Token来识别合法用户 3,HTTP Base认证:通过用户名+密码的认证...
ping域名提示unknown host,ping ip则可以通,ping的时候抓包没有解析的包出去,是解析的问题吗?
某用户反馈系统时间在某一个时刻跳变到2019年10月1号,导致程序异常,并提供了相关的截图佐证
由于历史遗留问题,Freebsd 系统盘出厂大小是 20G,即使购买的系统盘大小大于 20G,系统内分配的也是 20G 大小,那么云上的 Freebsd 如何扩容系统盘呢?
IO起飞后系统响应异常缓慢,看不到现场一直无法定位问题,检查对应时间点应用日志也没有发现异常的访问,这种问题怎么办呢?
云上ECS的Centos 7.x系统是3.x的内核,如何更换到4.x呢?
VPC网络环境下的ECS如何配置IPV6
LVM是逻辑卷管理(Logical Volume Manager)的简称,它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的逻辑层,来提高磁盘分区管理的灵活性。
这是一个特殊的案例,在修复ssh登陆之前,这个实例还经历了系统C库文件损坏,系统无法启动的恢复操作。
centos 6.5 扩容xfs分区的示例
特定机器POST数据到CDN节点无数据返回
手动创建Windows Update服务
windows系统内某进程总是异常崩溃退出,导致程序频繁死掉
php连接redis获取value时间波动的问题,在几百毫秒到几秒钟不等
使用脚本访问网站获取http状态码,抓包排查问题
yum强制终止后,提示rpmdb损坏 error: cannot open providename index using db3 - bad file descriptor
Linux系统slab内存使用较高
vpc环境通过eip做snat共享网络,以及dnat端口转发
系统内可以ping通内外网网关,ping域名提示unknown host,nslookup正常
SSH异常“Failed to start, OpenSSH Server daemon”的问题排查
Yum无法使用,报错 “/usr/lib64/python2.7/site-packages/pycurl.so: undefined symbol: CRYPTO_num_locks”。