清理session的小插曲(二)

简介: 在上周巡检系统的时候发现session列表中显示有一个session的状态为“KILLED",当时没有太在意,等到周一回来做检查的时候,发现那个session的状态还是为KILLED. 这肯定是个问题,我们来看看这个session的情况。
在上周巡检系统的时候发现session列表中显示有一个session的状态为“KILLED",当时没有太在意,等到周一回来做检查的时候,发现那个session的状态还是为KILLED.
这肯定是个问题,我们来看看这个session的情况。从v$session里可以看出这个session最早是在7月8日初始化的。

SQL>  select sid,serial#,status,logon_time ,paddr from v$session where status='KILLED';
       SID    SERIAL# STATUS           LOGON_TIME          PADDR
---------- ---------- ---------------- ------------------- ----------------
       979      64731 KILLED           2015-07-08 17:51:23 000000174114A1D8
查看一些客户端的明细信息,可以看到,是通过sqlplus直接连过来的,从客户端信息来看是一个监控客户端。
USERNAME             PROGRAM                                            OSUSER               MACHINE              STATUS                  SID
-------------------- -------------------------------------------------- -------------------- -------------------- ---------------- ----------
MIN_BG      sqlplus@xxxxxx (TNS V1-V3)                     xxxxx                   xxxxxxxxxx           KILLED                  979
这个时候尝试去看看这个session在killed的时候正在执行什么sql语句。没有任何信息。       
select sql_id from v$session where paddr='000000174114A1D8' and sql_id is not null 

好了问题的情况就是这样,之前也分享过几篇关于kill session的博文,比如http://blog.itpub.net/23718752/viewspace-1485804/
那个问题是通过查看操作系统进程来查看对应的session信息。
这个问题不太一样,因为我们只知道session的信息,需要找到绑定的操作系统进程。
有一个思路可以参考,我们根据操作系统进程的初始化时间来查看7月8日的数据相关进程。发现只有2个。这对我们分析问题的范围来说就更小了。
$ ps -ef|grep Jul08
oracle     781     1  0 Jul08 ?        00:00:00 oracletlbb3dbi (LOCAL=NO)
oracle   12172 10679  0 10:29 pts/0    00:00:00 grep Jul08
oracle   36470     1  0 Jul08 ?        00:00:00 oracletlbb3dbi (LOCAL=NO)
所以这两个进程中应该有一个就是需要清理的进程。
我们看看781这个进程。可以看到v$session里的paddr和v$process里的addr还是完全对应的,证明这个session是没有问题的。
$ ksh showpid.sh 781
*******************************************
Process has found, pid: 781  ,  addr: 00000017310538B8    
####### Process Information from OS level as below ########
oracle     781     1  0 Jul08 ?        00:00:00 oraclexxxxx (LOCAL=NO)
oracle    5781     1  0 Jun29 ?        00:00:30 oraclexxxxx (LOCAL=NO)
oracle   12210 10679  0 10:29 pts/0    00:00:00 ksh showpid.sh 781
##############################################
       SID    SERIAL# USERNAME        OSUSER          MACHINE              PROCESS         TERMINAL        TYPE
---------- ---------- --------------- --------------- -------------------- --------------- --------------- --------------------
LOGIN_TIME
--------------------------------------
      1409      27981 MIN_BG xxxxx xxxxxxxx           20646           pts/26          USER
2015-07-08 14:58:29
PREV_SQL_ID                    SQL_TEXT
------------------------------ ------------------------------------------------------------
548447mzsjars                  select * from v$version
那么问题就到了第二个session,通过地址映射找不到对应的进程。
$ ksh showpid.sh 36470
*******************************************
Process has found, pid: 36470  ,  addr: 00000017410A2318    
####### Process Information from OS level as below ########
oracle   12251 10679  0 10:29 pts/0    00:00:00 ksh showpid.sh 36470
oracle   36470     1  0 Jul08 ?        00:00:00 oraclexxxxxx (LOCAL=NO)
##############################################
no rows selected
no rows selected

我们手工来理一下这个问题。首先我们知道操作系统级进程,进程号为36470,对应的地址信息为:
SQL> select addr from v$process where spid=36470;
ADDR
----------------
00000017410A2318
我们根据这个地址信息在v$session没有任何收获,所以从v$session映射v$process还是从v$process映射v$session都是断开的链条。
SQL> select sid,serial#,username from v$session where paddr='00000017410A2318';
no rows selected
可以基本断定36470这个进程就是存在问题的进程。
简单和同事进行了确认,然后在操作系统级清理了这个进程。
kill -9 36470
隔了一会,再次查看session,原来显示KILLED状态的session就自动消失了。
$ ps -ef|grep Jul08
oracle     781     1  0 Jul08 ?        00:00:00 oraclexxxxxx (LOCAL=NO)
oracle   15481 10679  0 10:39 pts/0    00:00:00 grep Jul08
通过这个案例可以看出,我们在清理这种进程的时候还是省了不少事情,从操作系统进程的初始化时间缩小了问题分析的范围。然后也是逐个排查,正向反向进行印证,可以基本断定这个存在问题的进程。
所以作为问题总结,还是建议在删除session的时候还是最好先标示一下绑定的操作系统进程,这样就给事后的处理带来很多的便捷。
目录
相关文章
|
4天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
14天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
8天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
565 210
|
3天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
227 138
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
796 59
|
6天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1109 157
|
6天前
|
存储 安全 固态存储
四款WIN PE工具,都可以实现U盘安装教程
Windows PE是基于NT内核的轻量系统,用于系统安装、分区管理及故障修复。本文推荐多款PE制作工具,支持U盘启动,兼容UEFI/Legacy模式,具备备份还原、驱动识别等功能,操作简便,适合新旧电脑维护使用。
479 109