阿里云kubernetes(ACK)pod异常问题分析辅助工具-pod生命周期及事件可观测一览图

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 阿里云kubernetes(ACK)pod异常问题分析辅助工具-pod生命周期及事件可观测一览图

1. 作者

muyuan.y@alibaba-inc.com

yufeng.s@alibaba-inc.com

https://github.com/mYu4N/bpftrace/blob/main/mypod-lifecycle.py

2. 核心痛点

  1. 成本原因未开启“Pod事件监控”
  2. 开启,但因种种意外导致数据未上报至SLS
  3. 排查问题时,需要人肉分析日志和对应时间点以及先后关系,从而带来的大量额外时间开销和pod事件错漏问题

3. ACK官网效果

image.png

4. 辅助工具最终效果

4.1. 使用方法

image.png

4.2. 功能细节简述

  1. 分析离线日志,结合专业的k8s专家问题排查经验,根据k8s pod的离线日志抓取、检测特定的pod event
  2. 根据配置文件的event等级、args参数的pod名称对数据进行过滤用以对不同pod做不同维度和等级的分析
  3. pod event数据默认按照秒聚合展示在时间轴两侧,并根据event等级显示不同的颜色以展示重要性
  4. pod生命周期会以svg的格式保存至本地用于离线分析或技术交流
  5. svg本地图片将会默认注释并保存整个生命周期内,某一秒因为事件太多而缩略展示的pod event完整始末。
  6. matplotlib绘图控件click hook支持点击显示某一时刻所有pod event的细节信息
  7. matplotlib绘图控件slider hook支持拖拽时间轴以观察某一端时间的pod event,避免因为event太多,事件不够导致的图像紧凑
  8. matplotlib绘图控件支持拖拽时间轴到最左侧以展示整个pod 生命周期总览

4.3. svg本地图片效果

image.png

4.4. matplotlib交互控件效果

image.png

5. 源码

#author muyuan.y yufeng.s# python3 mypod-lifecycle.py --podname jpprod-oversea-user-message-server-0 --logfile messages --eventlevel Info,Normal,Warning,Error,FatalimportargparsefromtypingimportListimportmatplotlib.pyplotaspltimportnumpyasnpimportreimportdatetimeimportpandasaspdfromcollectionsimportCounterfrommatplotlib.backend_basesimportPickEventimportmathimportloggingfrommatplotlib.widgetsimportSliderplt.rcParams['font.sans-serif'] = ['SimHei', 'Songti SC', 'STFangsong']
plt.rcParams['axes.unicode_minus'] =Falseparser=argparse.ArgumentParser(description="display pod lifecycle")
parser.add_argument("--podname", default=None, type=str, help="name of pod, default=None")
parser.add_argument("--logfile", default=None, type=str, help="log file path of pod, default=None")
parser.add_argument("--eventlevel", default="Normal,Warning,Error,Fatal",
type=str,
help="event level configure in POD_EVENT_CONFIG::level_desc, default=Normal,Warning,Error,Fatal")
parser.add_argument("--loggerlevel", default="INFO", type=str, help="script runtime logger level, default=INFO")
args=parser.parse_args()
LOG_LEVEL_MAP= {
"DEBUG": logging.DEBUG,
"INFO": logging.INFO,
"ERROR": logging.ERROR,
"WARNING": logging.WARNING}
classMyLogger:
def__init__(self, log_level=LOG_LEVEL_MAP.get(args.loggerlevel)):
self.logger=logging.getLogger(__name__)
self.logger.setLevel(log_level)
console_handler=logging.StreamHandler()
console_handler.setLevel(log_level)
formatter=logging.Formatter('[%(asctime)s] - %(name)s - %(levelname)s - %(message)s')
console_handler.setFormatter(formatter)
self.logger.addHandler(console_handler)
definfo(self, message):
self.logger.info(message)
deferror(self, message):
self.logger.error(message)
defdebug(self, message):
self.logger.debug(message)
defwarning(self, msg):
self.logger.warning(msg)
logger=MyLogger()
# 标签描述默认显示如下level中等级最高的颜色和level描述LEVEL_MAP= {
'Info': 0,
'Normal': 1,
'Warning': 2,
'Error': 3,
'Fatal': 4}
# 不同level的显示颜色mappingCOLOR_MAP= {
'Info': 'whitesmoke',  # 灰色'Normal': 'lightgreen',  # 亮绿色'Warning': 'darkorange',  # 橙黄色'Error': 'red',
'Fatal': 'darkred'}
# alias是展示名称,如果不写默认使用log里匹配的keyPOD_EVENT_CONFIG= {
'Container started': {
'level_desc': "Normal"    },
'Created container': {
'bbox_color_show': 'lightgreen',
'level_desc': "Normal"    },
'Started container': {
'bbox_color_show': 'lightgreen',
'level_desc': "Normal"    },
'SyncLoop ADD': {
'alias': 'ADD POD',
'level_desc': "Normal"    },
'SyncLoop UPDATE': {
'alias': 'Update POD',
'level_desc': "Normal"    },
'SyncLoop DELETE': {
'alias': 'Delete POD',
'level_desc': "Normal"    },
'Probe succeeded': {
'bbox_color_show': 'whitesmoke',
'level_desc': "Info"    },
'Reason:ContainersNotReady': {
'alias': 'ContainersNotReady',
'level_desc': "Warning"    },
'Readiness probe failed': {
'alias': 'Readiness failed',
'level_desc': "Warning"    },
'Liveness probe failed': {
'alias': 'Liveness failed',
'level_desc': "Warning"    },
'Killing unwanted container': {
'alias': 'Killing unwanted',
'level_desc': "Warning"    },
'Container exited normally': {
'alias': 'Container exited',
'level_desc': "Normal"    },
'Killing container': {
'bbox_color_show': '#FFA500',
'level_desc': "Warning"    },
'will be restarted': {
'alias': 'Pod restart',
'level_desc': "Warning"    },
'SyncLoop REMOVE': {
'alias': 'REMOVE POD',
'level_desc': "Normal"    },
'Pod was deleted and then recreated': {
'alias': 'Pod Recreated',
'level_desc': "Warning"    },
'Pod has been deleted and must be killed': {
'alias': 'Pod delete & kill',
'level_desc': "Normal"    },
'Pod does not exist on the server': {
'alias': 'Pod not exist',
'level_desc': "Normal"    },
}
defconfig_check_and_process():
fork, vinPOD_EVENT_CONFIG.items():
try:
# assert v['bbox_color_show'], f'event: [{k}] has no attribute "bbox_color_show"'# 匹配level的优先级level=LEVEL_MAP[v['level_desc']]
POD_EVENT_CONFIG[k]['level'] =level# 匹配level的颜色color=COLOR_MAP[v['level_desc']]
POD_EVENT_CONFIG[k]['bbox_color_show'] =color# 如果没有设置alias(展示用) 默认用event名ifnotv.get('alias'):
POD_EVENT_CONFIG[k]['alias'] =kexceptExceptionase:
logger.error('config setting error')
logger.error(e)
logger.info('config dict check done')
config_check_and_process()
classEventCounter(Counter):
def__str__(self) ->str:
super().__str__()
_infos= []
for_k, _vinself.items():
_infos.append(str(_k) +':'+str(_v))
return'\n'.join(_infos)
defevent_agg(events: pd.Series) ->pd.Series:
event_list=events.to_list()
event_info=sorted([(
POD_EVENT_CONFIG.get(event).get('level'),
POD_EVENT_CONFIG.get(event).get('bbox_color_show'),
POD_EVENT_CONFIG.get(event).get('level_desc'),
POD_EVENT_CONFIG.get(event).get('alias'),
    ) foreventinevent_list], key=lambdax: x[0], reverse=True)
alias_list= [_[3] for_inevent_info]
event_counter=EventCounter(alias_list)
returnpd.Series(
        {
'event_infos': '\n'.join(event_list),
'event_counter': str(event_counter),
'event_size': len(event_list),
'bbox_color_show': event_info[0][1],  # 每秒取最高'level_desc': event_info[0][2],  # 每秒取最高'alias': '->\n'.join(alias_list)
        }
    )
defdraw_time_text(events: List[str], dates: List[datetime.datetime]):
event_df=pd.DataFrame({"event": events, "dates": dates})  # .to_clipboard()g=event_df['dates'].apply(lambdax: datetime.datetime.strftime(x, "%m-%d %H:%M:%S"))
grouped=event_df.groupby(g)
# for _g, _df in grouped:#     print(_g, _df)event_summary=grouped.apply(
lambdax: event_agg(x['event'])
    )
# 图表所需信息_ylabel= []
_xlim= []
_levels= []
_vert= []
_color= []
cnt=0click_content= []
svg_content= []
forindex, rowinevent_summary.iterrows():
info=''ifrow['event_size'] >=2:
info+=row['event_counter'] +f'\n等级:'+row['level_desc']
svg_content.append((row['alias'].replace('\n', ' '), cnt+1))
else:
info+=row['alias'] +'\n等级:'+row['level_desc']
_ylabel.extend([info, index])
_xlim.extend([cnt+1, cnt+1])
# _levels.extend([-3, 0]) if (cnt % 2 == 0) else _levels.extend([3, 0])ifcnt%2==0:
_levels.extend([-1.5, 0]) ifcnt%4<2else_levels.extend([-3, 0])
else:
_levels.extend([1.5, 0]) ifcnt%4<2else_levels.extend([3, 0])
_vert.extend(['top', 'bottom']) ifcnt%2==0else_vert.extend(['bottom', 'top'])
_color.extend([row['bbox_color_show'], 'lightgreen'])
click_content.append(row['alias'].replace('\n', ' '))
cnt+=1fig, ax=plt.subplots(figsize=(100, 10), constrained_layout=True)
# 标题ax.set(title=f'Pod-lifecycle {args.podname}')
# 添加线条, basefmt设置中线的颜色,linefmt设置线的颜色以及类型# 初步设想:level需要比较均匀的铺在这个上面,直接生成等差数列 然后用标签显示时间 和事件markerline, stemline, baseline=ax.stem(_xlim, _levels,
linefmt="#00BFFF", basefmt="green",
                                             )
# 交点空心,zorder=3设置图层,mec="k"外黑 mfc="w"内白plt.setp(markerline, mec='#00FF00', mfc="w", zorder=3)
# 通过将Y数据替换为零,将标记移到基线markerline.set_ydata(np.zeros(len(_xlim)))
# 添加文字注释ford, l, r, va, colorinzip(_xlim, _levels, _ylabel, _vert, _color):
logger.debug(f'annotate location param: \nd: {d}\nl: {l}\nr: {r}\nva: {va}\ncolor: {color}\n')
ax.annotate(r, xy=(d, l),
xytext=(0, np.sign(l) *3-5ifd%2==0else5),
textcoords="offset points",
va=va, ha="center",
bbox=dict(boxstyle='round', facecolor=color, edgecolor='none', pad=0.2ifl==0else0.8))
# 设置图表的x轴范围为最小和最大日期ax.set_xlim(min(_xlim) -3, max(_xlim) +3)
ax.set_ylim(-5, 5)
# 逆时针30度,刻度右对齐# plt.setp(ax.get_xticklabels(), rotation=30, ha="right")# 隐藏轴线ax.get_yaxis().set_visible(False)
ax.get_xaxis().set_visible(False)
# 隐藏边框forspinein ["left", "top", "right", "bottom"]:
ax.spines[spine].set_visible(False)
# 边距仅设置y轴ax.margins(y=0.3)
# svg本地保存图片 需要添加脚注svg_text_objs= []
foridx, (_content, _x) inenumerate(svg_content, start=1):
logger.debug(f'[{idx}] writing text description on x={_x} desc:{_content}')
_adj_diff=0.4_text_y_lim=_levels[_x*2-2] +_adj_diffif_levels[_x*2-2] <0else_levels[_x*2-2] -_adj_diff_text=ax.text(_x, _text_y_lim, f'[{_ylabel[_x*2-1]}] {_content}', fontsize=12, ha="center")
svg_text_objs.append(_text)
# 根据需要进行图表的调整和保存plt.tight_layout()
plt.savefig(f'{args.podname}-Pod-lifecycle.svg')
logger.info(f'save local image: {args.podname}-Pod-lifecycle.svg')
iflen(_xlim) >=400:
logger.warning(
"""            Too many X-axis elements may cause local image display to be congested.             You can adjust the `figsize` bigger than (100,10) default             or use the `eventlevel` parameter to filter events with low prompt levels            """)
# 控件点击事件即可显示全,删掉这部分展示仅用于绘制本地图片whilesvg_text_objs:
_delete=svg_text_objs.pop()
_delete.remove()
# click回调设置clicks= []
defon_pick(event: PickEvent):
logger.info(event.mouseevent)
ifclicks:
click=clicks.pop()
click.remove()
ifevent.mouseevent.button==1andevent.mouseevent.dblclick==0:
x=event.mouseevent.xdatax_idx=math.floor(x+0.5) -1logger.debug(f'content x index: {x_idx}')
if0<=x_idx<=len(click_content) -1:
msg=click_content[x_idx]
else:
msg='请点击时间轴内的时间或事件描述以展示具体细节'logger.debug(f'content display: {msg}')
click=ax.text(x_idx, 4.5, f'{msg}', fontsize=16, ha="center")
clicks.append(click)
plt.draw()
ax.set_picker(True)
fig.canvas.mpl_connect('pick_event', on_pick)
# 创建一个Slider对象,用于控制横向拖拽ax_slider=plt.axes([0.1, 0.1, 0.65, 0.03])
slider=Slider(ax_slider, '时间轴', min(_xlim) -5, max(_xlim), valinit=0, valstep=0.01)
# 默认展示前20ax.set_xlim(min(_xlim), min(_xlim) +20)
# slider hookdefslider_update(val):
# 获取Slider的值x_range=slider.valifx_range==min(_xlim) -5:
ax.set_xlim(min(_xlim) -5, max(_xlim) +5)
logger.debug(
f'slider info: xlim({x_range},) label(展示总览,)')
slider.valtext.set_text('展示总览')
else:
# 更新图形的x轴范围ax.set_xlim(x_range, x_range+20)
x_show_left=math.floor(min(_xlim) ifx_range<min(_xlim) elsex_range)
x_show_right=math.floor(max(_xlim) ifx_range+20>max(_xlim) elsex_range+20)
# print(x_show_left, x_show_right)slider_label_show_left=_ylabel[x_show_left*2-1]
slider_label_show_right=_ylabel[x_show_right*2-1]
logger.debug(
f'slider info: xlim({x_show_left},{x_show_right}) label({slider_label_show_left},{slider_label_show_right})')
slider.valtext.set_text(' ~\n   '.join([slider_label_show_left, slider_label_show_right]))
fig.canvas.draw_idle()
slider.on_changed(slider_update)
plt.show()
plt.show()
if__name__=='__main__':
target_keywords=POD_EVENT_CONFIG.keys()
dates= []
events= []
event_level_filter=args.eventlevel.split(',')
withopen(args.logfile, 'r') asfile:
forlineinfile:
ifargs.podnameinline:
forkeywordintarget_keywords:
ifPOD_EVENT_CONFIG.get(keyword).get('level_desc') inevent_level_filter:
match=re.search(r'(\w{3} \d{2} \d{2}:\d{2}:\d{2}).+'+'{}'.format(keyword), line)
ifmatch:
# dates.append(match.group(1))dates.append(datetime.datetime.strptime(match.group(1), "%b %d %H:%M:%S"))
events.append(keyword)
breakiflen(dates) ==len(events) !=0:
draw_time_text(events, dates)
else:
logger.error('event list is empty or log file is Incomplete')
raiseValueError(f'data length: dates={len(dates)} events={len(events)} ,pleas check')
相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。 &nbsp; &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
1月前
|
存储 Kubernetes 网络安全
关于阿里云 Kubernetes 容器服务(ACK)添加镜像仓库的快速说明
本文介绍了在中国大陆地区因网络限制无法正常拉取 Docker 镜像的解决方案。作者所在的阿里云 Kubernetes 集群使用的是较旧版本的 containerd(1.2x),且无法直接通过 SSH 修改节点配置,因此采用了一种无需更改 Kubernetes 配置文件的方法。通过为 `docker.io` 添加 containerd 的镜像源,并使用脚本自动修改 containerd 配置文件中的路径错误(将错误的 `cert.d` 改为 `certs.d`),最终实现了通过多个镜像站点拉取镜像。作者还提供了一个可重复运行的脚本,用于动态配置镜像源。虽然该方案能缓解镜像拉取问题,
244 2
|
7月前
|
存储 Kubernetes 监控
K8s集群实战:使用kubeadm和kuboard部署Kubernetes集群
总之,使用kubeadm和kuboard部署K8s集群就像回归童年一样,简单又有趣。不要忘记,技术是为人服务的,用K8s集群操控云端资源,我们不过是想在复杂的世界找寻简单。尽管部署过程可能遇到困难,但朝着简化复杂的目标,我们就能找到意义和乐趣。希望你也能利用这些工具,找到你的乐趣,满足你的需求。
694 33
|
7月前
|
Kubernetes Docker 容器
Kubernetes与Docker参数对照:理解Pod中的command、args与Dockerfile中的CMD、ENTRYPOINT。
需要明确的是,理解这些都需要对Docker和Kubernetes有一定深度的理解,才能把握二者的区别和联系。虽然它们都是容器技术的二个重要组成部分,但各有其特性和适用场景,理解它们的本质和工作方式,才能更好的使用这些工具,将各自的优点整合到生产环境中,实现软件的快速开发和部署。
242 25
|
7月前
|
存储 人工智能 Kubernetes
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
7月前
|
Kubernetes Shell Windows
【Azure K8S | AKS】在AKS的节点中抓取目标POD的网络包方法分享
在AKS中遇到复杂网络问题时,可通过以下步骤进入特定POD抓取网络包进行分析:1. 使用`kubectl get pods`确认Pod所在Node;2. 通过`kubectl node-shell`登录Node;3. 使用`crictl ps`找到Pod的Container ID;4. 获取PID并使用`nsenter`进入Pod的网络空间;5. 在`/var/tmp`目录下使用`tcpdump`抓包。完成后按Ctrl+C停止抓包。
245 12
|
7月前
|
存储 运维 Kubernetes
容器数据保护:基于容器服务 Kubernetes 版(ACK)备份中心实现K8s存储卷一键备份与恢复
阿里云ACK备份中心提供一站式容器化业务灾备及迁移方案,减少数据丢失风险,确保业务稳定运行。
|
8月前
|
监控 Kubernetes Cloud Native
基于阿里云容器服务Kubernetes版(ACK)的微服务架构设计与实践
本文介绍了如何基于阿里云容器服务Kubernetes版(ACK)设计和实现微服务架构。首先概述了微服务架构的优势与挑战,如模块化、可扩展性及技术多样性。接着详细描述了ACK的核心功能,包括集群管理、应用管理、网络与安全、监控与日志等。在设计基于ACK的微服务架构时,需考虑服务拆分、通信、发现与负载均衡、配置管理、监控与日志以及CI/CD等方面。通过一个电商应用案例,展示了用户服务、商品服务、订单服务和支付服务的具体部署步骤。最后总结了ACK为微服务架构提供的强大支持,帮助应对各种挑战,构建高效可靠的云原生应用。
|
8月前
|
弹性计算 人工智能 资源调度
DeepSeek大解读系列公开课上新!阿里云专家主讲云上智能算力、Kubernetes容器服务、DeepSeek私有化部署
智猩猩「DeepSeek大解读」系列公开课第三期即将开讲,聚焦阿里云弹性计算助力大模型训练与部署。三位专家将分别讲解智能算力支撑、Kubernetes容器服务在AI场景的应用实践、以及DeepSeek一键部署和多渠道应用集成,分享云计算如何赋能大模型发展。欲观看直播,可关注【智猩猩GenAI视频号】预约。 (239字符)
|
8月前
|
监控 Cloud Native Java
基于阿里云容器服务(ACK)的微服务架构设计与实践
本文介绍如何利用阿里云容器服务Kubernetes版(ACK)构建高可用、可扩展的微服务架构。通过电商平台案例,展示基于Java(Spring Boot)、Docker、Nacos等技术的开发、容器化、部署流程,涵盖服务注册、API网关、监控日志及性能优化实践,帮助企业实现云原生转型。
|
4天前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
48 1

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多