0x01 前言
最近在某次项目上,遇到了Spring的未授权,下载到了heapdump,想着分析一下看看有没有明文账号密码,悲催的是MAT及其他工具比如heapdump.jar统统报错。要么是jdk版本不对,要么是找不到jhat......(终端执行正常),调了一天没调好。。。干脆自己写一个。正文开始前说明:正文中只是简单的走了一遍执行的流程,并没有像审计代码那样,深入了解。不喜欢或者觉得很low的。不要喷我。
0x02 正文
通过遍寻Github、某搜索引擎,找到一篇关于使用python解析Spring Boot Heapdump的文章地址如下:https://github.com/wdahlenburg/pyhprof]https://github.com/wdahlenburg/pyhprof
这个库是根据旧版本的pyhprof库改写的。老版本的只兼容python2,且存在部分错误,而且这个库没有任何帮助文档,二开造轮子有点难。。但好在作者提供了一个演示。直接用演示的Python文件也可以获得里面的信息。但打印出的东西有点杂。。。于是我造轮之路开启了。我的方法是通过调试了解到代码的大致流程->二开。首先列出坐着给出的源代码;
#!/bin/python3from pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sys# Use truffleHog to parse any references for common API keysfrom truffleHogRegexes.regexChecks import regexesimport redef main(): flags = {} parser = argparse.ArgumentParser(description='Parse JAVA HPROF files') parser.add_argument('-f', '--filename', dest='filename', required=True, help='HPROF file to parse') parser.add_argument('-t1', '--type-one', action='store_true', help='Force Type 1 parsing of variables') parser.add_argument('-t2', '--type-two', action='store_true', help='Force Type 2 parsing of variables') args = parser.parse_args() if args.type_one == True and args.type_two == True: print("Error: Use -t1 or -t2, but not both") sys.exit(1) else: if args.type_one == True: flags['type_one'] = True else: flags['type_one'] = False if args.type_two == True: flags['type_two'] = True else: flags['type_two'] = False filename = args.filename fp = open(filename, 'rb') refs = ReferenceBuilder(fp, flags) refs.build() print("Variables:\n\n") for i in refs.variables.keys(): key = i.decode("utf-8") for v in refs.variables<i>: print("%s: %s" % (key, v.decode("utf-8"))) http_references = [] secrets = [] for i in refs.references.keys(): if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference: data = refs.references<i>.ascii_data().decode("utf-8") if 'HTTP/1.1' in data: http_references.append(data) for k in regexes.keys(): matches = regexes[k].findall(data) if len(matches) != 0: secrets.append("TruffleHog (%s): %s. Identified from: \n%s" % (k, matches, data)) print("\n\nHTTP References:\n\n") for i in http_references: print(i + "\n") print("\n\nSecret References:\n\n") for i in secrets: print(i + "\n") main()
首先大致过一遍该代码执行的流程:
- 第13行代码到36行代码主要为该文件如何使用,type_one代表Spring 1.0 -f指定
- 第38行开始处理heapdump文件。
我们的重点就是开始从第40行开始看。结合上下代码及pyhprof库进行分析。首先我们设置好调试模式,开始慢慢调试:在第40行打断点
跳转到references.py中的ReferenceBuilder类中
这里的代码主要是接受-f参数指定的文件,并且判断flags是type_one还是type_two。然后往下调试进入到refs.build()方法处,跟进调试
此处会进入到read_hprof()方法中,而read_hprof可以看到红色箭头指的方向,在167行代码处,进入到了HProfParser进入解析器,往下调试进入到parsers.py文件中
上述代码中115到120行,都很容易看到,在121行中,u1 = self.u1() 此处u1我们目前不知道是什么,所以这里我们跟进第121行。
是一个读文件的操作,我们继续往下走
进入到122行代码,一个判断语句,当u1不为空,跳出判断,然后添加到f参数中
而通过调试信息,我们可以看到变量f的值是b'JAVA'。(b在Python中代表字节(bytes))。这里可以跳出了,因为这里实际上是一直在循环进行该操作,直到读取完毕。然后我们继续看一下代码:
def read_hprof(self): self.p = HProfParser(self.f) for b in self.p: if b.tag_name == 'HEAP_DUMP' or b.tag_name == 'HEAP_DUMP_SEGMENT': return b elif b.tag_name == 'STRING': self.strings[b.id] = b.contents elif b.tag_name == 'LOAD_CLASS': self.class_name_ids[b.class_id] = b.class_name_id raise RuntimeError("No HEAP_DUMP block")
其中代码:self.p = HProfParser(self.f) 其中f就是上面所说的变量f,它执行了一个读文件的过程,并且把文件的明文都存储在了f中。<br />为了更方便了解,将f打印出来,然后再慢慢进行
b'JAVA PROFILE 1.0.1'
这个是f的值,然后我们往下进行,进入for循环中,往下调试进入如下代码中
def __iter__(self): while True: try: b = self.read_next_block() except EOFError: break if b is None: break yield b
上述的代码,很痛看懂,我们主要了解的就是self.read_next_block()是什么?在该语句上进行断点,进入到如下代码
def read_next_block(self): tag = ord(self.u1()) tag_name = TAGS.get(tag, 'UNKOWN') record_time = self.i4() length = self.i4() start = self.f.tell() self.seek(length) block = BLOCK_CLASSES_BY_TAG.get(tag_name, GenericBlock)(tag, self, record_time, start, length) return block
self.u1前面说过是什么。然后看一下TAGS.get是从哪里来的。在此处断点进行调试
TAGS来源于constants.py文件中。然后我们看一下tag的ASCII是什么
此处也会循环一段时间,满足read_hprof方法中后,会跳出,并输出一个variables的列表。回到最新开始的代码中
for i in refs.variables.keys(): key = i.decode("utf-8") for v in refs.variables<i>: print("%s: %s" % (key, v.decode("utf-8"))) http_references = [] secrets = [] for i in refs.references.keys(): if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference: data = refs.references<i>.ascii_data().decode("utf-8") if 'HTTP/1.1' in data: http_references.append(data) for k in regexes.keys(): matches = regexes[k].findall(data) if len(matches) != 0: secrets.append("TruffleHog (%s): %s. Identified from: \n%s" % (k, matches, data)) print("\n\nHTTP References:\n\n") for i in http_references: print(i + "\n") print("\n\nSecret References:\n\n") for i in secrets: print(i + "\n")
上述代码主要就是正则。。。
0x03 二开
其实最难的不是解析,而是如何处理文件,满足我们的需要。由于代码是老外编写,所以我们不得不进行二改,里面的正则匹配表达式几乎对我们来说没任何用处。
#!/bin/python3import refrom pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sysfrom colorama import Fore,initimport ast logos = ''' __ .__ ___ __| | __ ___________________|__| ____ ____ \ \/ / |/ / / ___/\____ \_ __ \ |/ \ / ___\ > <| < \___ \ | |_> > | \/ | | \/ /_/ > /__/\_ \__|_ \_____/____ >| __/|__| |__|___| /\___ / \/ \/_____/ \/ |__| \//_____/ '''def data_references(refs): http_reference = [] for i in refs.references.keys(): if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference: data = refs.references<i>.ascii_data().decode("utf-8") if 'password' in data: http_reference.append(data) hister = "".join(http_reference) with open('./cc.json', 'r') as f: regexes = ast.literal_eval(f.read()) for i in regexes.values(): matches = re.compile(i, re.S) matchess = matches.findall(hister) if len(matchess) != 0: for k in matchess: print(Fore.MAGENTA + "[Find+]:" + "\n" + k)def main(): flags = {} parser = argparse.ArgumentParser(description='Parse JAVA HPROF files') print(Fore.CYAN + logos) parser.add_argument('-f', '--filename', dest='filename', required=True, help='HPROF file to parse') parser.add_argument('-t1', '--type-one', action='store_true', help='Force Type 1 parsing of variables') parser.add_argument('-t2', '--type-two', action='store_true', help='Force Type 2 parsing of variables') args = parser.parse_args() if args.type_one == True and args.type_two == True: print("Error: Use -t1 or -t2, but not both") sys.exit(1) else: if args.type_one == True: flags['type_one'] = True else: flags['type_one'] = False if args.type_two == True: flags['type_two'] = True else: flags['type_two'] = False filename = args.filename fp = open(filename, 'rb') refs = ReferenceBuilder(fp, flags) refs.build() data_references(refs) main()
效果图:
ccc.json的文件内容如下
{ "RSA private key": "-----BEGIN RSA PRIVATE KEY-----", "SSH (DSA) private key": "-----BEGIN DSA PRIVATE KEY-----", "SSH (EC) private key": "-----BEGIN EC PRIVATE KEY-----", "PGP private key block": "-----BEGIN PGP PRIVATE KEY BLOCK-----", "AWS API Key": "((?:A3T[A-Z0-9]|AKIA|AGPA|AIDA|AROA|AIPA|ANPA|ANVA|ASIA)[A-Z0-9]{16})", "Amazon MWS Auth Token": "amzn\\.mws\\.[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}", "AWS API Keys": "AKIA[0-9A-Z]{16}", "AWS AppSync GraphQL Key": "da2-[a-z0-9]{26}", "GitHub": "[gG][iI][tT][hH][uU][bB].*['|\"][0-9a-zA-Z]{35,40}['|\"]", "Password in URL": "[a-zA-Z]{3,10}://[^/\\s:@]{3,20}:[^/\\s:@]{3,20}@.{1,100}[\"'\\s]", "password": "addresses: .*? username: .*? password: .*? "}
此处代码有些布局上的小瑕疵,各位师傅们请自行排版代码。
安利一款非常好用的工具:
https://github.com/wyzxxz/heapdump_tool