Py解析heapdump

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: Py解析heapdump

0x01 前言

最近在某次项目上,遇到了Spring的未授权,下载到了heapdump,想着分析一下看看有没有明文账号密码,悲催的是MAT及其他工具比如heapdump.jar统统报错。要么是jdk版本不对,要么是找不到jhat......(终端执行正常),调了一天没调好。。。干脆自己写一个。正文开始前说明:正文中只是简单的走了一遍执行的流程,并没有像审计代码那样,深入了解。不喜欢或者觉得很low的。不要喷我。

0x02 正文

通过遍寻Github、某搜索引擎,找到一篇关于使用python解析Spring Boot Heapdump的文章地址如下:https://github.com/wdahlenburg/pyhprof]https://github.com/wdahlenburg/pyhprof

这个库是根据旧版本的pyhprof库改写的。老版本的只兼容python2,且存在部分错误,而且这个库没有任何帮助文档,二开造轮子有点难。。但好在作者提供了一个演示。直接用演示的Python文件也可以获得里面的信息。但打印出的东西有点杂。。。于是我造轮之路开启了。我的方法是通过调试了解到代码的大致流程->二开。首先列出坐着给出的源代码;

#!/bin/python3from pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sys# Use truffleHog to parse any references for common API keysfrom truffleHogRegexes.regexChecks import regexesimport redef main():
    flags = {}
    parser = argparse.ArgumentParser(description='Parse JAVA HPROF files')
    parser.add_argument('-f', '--filename', dest='filename', required=True,
                        help='HPROF file to parse')
    parser.add_argument('-t1', '--type-one', action='store_true',
                        help='Force Type 1 parsing of variables')
    parser.add_argument('-t2', '--type-two', action='store_true',
                        help='Force Type 2 parsing of variables')
    args = parser.parse_args()    if args.type_one == True and args.type_two == True:
       print("Error: Use -t1 or -t2, but not both")
       sys.exit(1)    else:       if args.type_one == True:
         flags['type_one'] = True
       else:
         flags['type_one'] = False
       if args.type_two == True:
         flags['type_two'] = True
       else:
         flags['type_two'] = False
    filename = args.filename
    fp = open(filename, 'rb')
    refs = ReferenceBuilder(fp, flags)
    refs.build()
    print("Variables:\n\n")    for i in refs.variables.keys():
       key = i.decode("utf-8")       for v in refs.variables<i>:
         print("%s: %s" % (key, v.decode("utf-8")))
    http_references = []
    secrets = []    for i in refs.references.keys():       if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
         data = refs.references<i>.ascii_data().decode("utf-8")         if 'HTTP/1.1' in data:
          http_references.append(data)         for k in regexes.keys():
          matches = regexes[k].findall(data)          if len(matches) != 0:
              secrets.append("TruffleHog (%s): %s. Identified from: \n%s" % (k, matches, data))
    print("\n\nHTTP References:\n\n")    for i in http_references:
       print(i + "\n")
    print("\n\nSecret References:\n\n")    for i in secrets:
       print(i + "\n")
main()

首先大致过一遍该代码执行的流程:

  1. 第13行代码到36行代码主要为该文件如何使用,type_one代表Spring 1.0 -f指定
  2. 第38行开始处理heapdump文件。

我们的重点就是开始从第40行开始看。结合上下代码及pyhprof库进行分析。首先我们设置好调试模式,开始慢慢调试:在第40行打断点

跳转到references.py中的ReferenceBuilder类中

这里的代码主要是接受-f参数指定的文件,并且判断flags是type_one还是type_two。然后往下调试进入到refs.build()方法处,跟进调试

此处会进入到read_hprof()方法中,而read_hprof可以看到红色箭头指的方向,在167行代码处,进入到了HProfParser进入解析器,往下调试进入到parsers.py文件中

上述代码中115到120行,都很容易看到,在121行中,u1 = self.u1() 此处u1我们目前不知道是什么,所以这里我们跟进第121行。

是一个读文件的操作,我们继续往下走

进入到122行代码,一个判断语句,当u1不为空,跳出判断,然后添加到f参数中

而通过调试信息,我们可以看到变量f的值是b'JAVA'。(b在Python中代表字节(bytes))。这里可以跳出了,因为这里实际上是一直在循环进行该操作,直到读取完毕。然后我们继续看一下代码:

def read_hprof(self):
        self.p = HProfParser(self.f)        for b in self.p:            if b.tag_name == 'HEAP_DUMP' or b.tag_name == 'HEAP_DUMP_SEGMENT':                return b            elif b.tag_name == 'STRING':
                self.strings[b.id] = b.contents            elif b.tag_name == 'LOAD_CLASS':
                self.class_name_ids[b.class_id] = b.class_name_id        raise RuntimeError("No HEAP_DUMP block")

其中代码:self.p = HProfParser(self.f) 其中f就是上面所说的变量f,它执行了一个读文件的过程,并且把文件的明文都存储在了f中。<br />为了更方便了解,将f打印出来,然后再慢慢进行

b'JAVA PROFILE 1.0.1'

这个是f的值,然后我们往下进行,进入for循环中,往下调试进入如下代码中

def __iter__(self):
        while True:            try:
                b = self.read_next_block()            except EOFError:                break
            if b is None:                break
            yield b

上述的代码,很痛看懂,我们主要了解的就是self.read_next_block()是什么?在该语句上进行断点,进入到如下代码

def read_next_block(self):
        tag = ord(self.u1())
        tag_name = TAGS.get(tag, 'UNKOWN')
        record_time = self.i4()
        length = self.i4()
        start = self.f.tell()
        self.seek(length)
        block = BLOCK_CLASSES_BY_TAG.get(tag_name, GenericBlock)(tag, self, record_time, start, length)        return block

self.u1前面说过是什么。然后看一下TAGS.get是从哪里来的。在此处断点进行调试

TAGS来源于constants.py文件中。然后我们看一下tag的ASCII是什么

此处也会循环一段时间,满足read_hprof方法中后,会跳出,并输出一个variables的列表。回到最新开始的代码中

for i in refs.variables.keys():
       key = i.decode("utf-8")       for v in refs.variables<i>:
         print("%s: %s" % (key, v.decode("utf-8")))
    http_references = []
    secrets = []    for i in refs.references.keys():       if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
         data = refs.references<i>.ascii_data().decode("utf-8")         if 'HTTP/1.1' in data:
          http_references.append(data)         for k in regexes.keys():
          matches = regexes[k].findall(data)          if len(matches) != 0:
              secrets.append("TruffleHog (%s): %s. Identified from: \n%s" % (k, matches, data))
    print("\n\nHTTP References:\n\n")    for i in http_references:
       print(i + "\n")
    print("\n\nSecret References:\n\n")    for i in secrets:
       print(i + "\n")

上述代码主要就是正则。。。

0x03 二开

其实最难的不是解析,而是如何处理文件,满足我们的需要。由于代码是老外编写,所以我们不得不进行二改,里面的正则匹配表达式几乎对我们来说没任何用处。

#!/bin/python3import refrom pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sysfrom colorama import Fore,initimport ast
logos = '''        __                              .__                
___  __|  | __       ___________________|__| ____    ____  
\  \/  /  |/ /      /  ___/\____ \_  __ \  |/    \  / ___\ 
 >    <|    <       \___ \ |  |_> >  | \/  |   |  \/ /_/  >
/__/\_ \__|_ \_____/____  >|   __/|__|  |__|___|  /\___  / 
      \/    \/_____/    \/ |__|                 \//_____/  '''def data_references(refs):
    http_reference = []    for i in refs.references.keys():        if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
            data = refs.references<i>.ascii_data().decode("utf-8")            if 'password' in data:
                http_reference.append(data)
    hister = "".join(http_reference)    with open('./cc.json', 'r') as f:
        regexes = ast.literal_eval(f.read())        for i in regexes.values():
            matches = re.compile(i, re.S)
            matchess = matches.findall(hister)            if len(matchess) != 0:                for k in matchess:
                    print(Fore.MAGENTA + "[Find+]:" + "\n" + k)def main():
    flags = {}
    parser = argparse.ArgumentParser(description='Parse JAVA HPROF files')
    print(Fore.CYAN + logos)
    parser.add_argument('-f', '--filename', dest='filename', required=True,
                        help='HPROF file to parse')
    parser.add_argument('-t1', '--type-one', action='store_true',
                        help='Force Type 1 parsing of variables')
    parser.add_argument('-t2', '--type-two', action='store_true',
                        help='Force Type 2 parsing of variables')
    args = parser.parse_args()    if args.type_one == True and args.type_two == True:
        print("Error: Use -t1 or -t2, but not both")
        sys.exit(1)    else:        if args.type_one == True:
            flags['type_one'] = True
        else:
            flags['type_one'] = False
        if args.type_two == True:
            flags['type_two'] = True
        else:
            flags['type_two'] = False
    filename = args.filename
    fp = open(filename, 'rb')
    refs = ReferenceBuilder(fp, flags)
    refs.build()
    data_references(refs)
main()

效果图:

ccc.json的文件内容如下

{    "RSA private key": "-----BEGIN RSA PRIVATE KEY-----",    "SSH (DSA) private key": "-----BEGIN DSA PRIVATE KEY-----",    "SSH (EC) private key": "-----BEGIN EC PRIVATE KEY-----",    "PGP private key block": "-----BEGIN PGP PRIVATE KEY BLOCK-----",    "AWS API Key": "((?:A3T[A-Z0-9]|AKIA|AGPA|AIDA|AROA|AIPA|ANPA|ANVA|ASIA)[A-Z0-9]{16})",    "Amazon MWS Auth Token": "amzn\\.mws\\.[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}",    "AWS API Keys": "AKIA[0-9A-Z]{16}",    "AWS AppSync GraphQL Key": "da2-[a-z0-9]{26}",    "GitHub": "[gG][iI][tT][hH][uU][bB].*['|\"][0-9a-zA-Z]{35,40}['|\"]",    "Password in URL": "[a-zA-Z]{3,10}://[^/\\s:@]{3,20}:[^/\\s:@]{3,20}@.{1,100}[\"'\\s]",    "password": "addresses: .*? username: .*? password: .*? "}

此处代码有些布局上的小瑕疵,各位师傅们请自行排版代码。


安利一款非常好用的工具:

https://github.com/wyzxxz/heapdump_tool


目录
相关文章
|
数据采集 XML 数据格式
#PY小贴士# BeautifulSoup的解析器选择
后来帮他 debug 了一番,发现原因是对方网页里的 HTML 代码写得不规范,中间多了个 </html>,导致解析时认为网页已经结束,把后面的内容都截断了。
|
23天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
61 2
|
2月前
|
缓存 Java 程序员
Map - LinkedHashSet&Map源码解析
Map - LinkedHashSet&Map源码解析
72 0
|
2月前
|
算法 Java 容器
Map - HashSet & HashMap 源码解析
Map - HashSet & HashMap 源码解析
57 0
|
2月前
|
存储 Java C++
Collection-PriorityQueue源码解析
Collection-PriorityQueue源码解析
64 0
|
2月前
|
安全 Java 程序员
Collection-Stack&Queue源码解析
Collection-Stack&Queue源码解析
85 0
|
23天前
|
存储 安全 Linux
Golang的GMP调度模型与源码解析
【11月更文挑战第11天】GMP 调度模型是 Go 语言运行时系统的核心部分,用于高效管理和调度大量协程(goroutine)。它通过少量的操作系统线程(M)和逻辑处理器(P)来调度大量的轻量级协程(G),从而实现高性能的并发处理。GMP 模型通过本地队列和全局队列来减少锁竞争,提高调度效率。在 Go 源码中,`runtime.h` 文件定义了关键数据结构,`schedule()` 和 `findrunnable()` 函数实现了核心调度逻辑。通过深入研究 GMP 模型,可以更好地理解 Go 语言的并发机制。
|
1月前
|
消息中间件 缓存 安全
Future与FutureTask源码解析,接口阻塞问题及解决方案
【11月更文挑战第5天】在Java开发中,多线程编程是提高系统并发性能和资源利用率的重要手段。然而,多线程编程也带来了诸如线程安全、死锁、接口阻塞等一系列复杂问题。本文将深度剖析多线程优化技巧、Future与FutureTask的源码、接口阻塞问题及解决方案,并通过具体业务场景和Java代码示例进行实战演示。
46 3
|
2月前
|
存储
让星星⭐月亮告诉你,HashMap的put方法源码解析及其中两种会触发扩容的场景(足够详尽,有问题欢迎指正~)
`HashMap`的`put`方法通过调用`putVal`实现,主要涉及两个场景下的扩容操作:1. 初始化时,链表数组的初始容量设为16,阈值设为12;2. 当存储的元素个数超过阈值时,链表数组的容量和阈值均翻倍。`putVal`方法处理键值对的插入,包括链表和红黑树的转换,确保高效的数据存取。
59 5
|
2月前
|
Java Spring
Spring底层架构源码解析(三)
Spring底层架构源码解析(三)
135 5

推荐镜像

更多