Py解析heapdump

简介: Py解析heapdump

0x01 前言

最近在某次项目上,遇到了Spring的未授权,下载到了heapdump,想着分析一下看看有没有明文账号密码,悲催的是MAT及其他工具比如heapdump.jar统统报错。要么是jdk版本不对,要么是找不到jhat......(终端执行正常),调了一天没调好。。。干脆自己写一个。正文开始前说明:正文中只是简单的走了一遍执行的流程,并没有像审计代码那样,深入了解。不喜欢或者觉得很low的。不要喷我。

0x02 正文

通过遍寻Github、某搜索引擎,找到一篇关于使用python解析Spring Boot Heapdump的文章地址如下:https://github.com/wdahlenburg/pyhprof]https://github.com/wdahlenburg/pyhprof

这个库是根据旧版本的pyhprof库改写的。老版本的只兼容python2,且存在部分错误,而且这个库没有任何帮助文档,二开造轮子有点难。。但好在作者提供了一个演示。直接用演示的Python文件也可以获得里面的信息。但打印出的东西有点杂。。。于是我造轮之路开启了。我的方法是通过调试了解到代码的大致流程->二开。首先列出坐着给出的源代码;

#!/bin/python3from pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sys# Use truffleHog to parse any references for common API keysfrom truffleHogRegexes.regexChecks import regexesimport redef main():
    flags = {}
    parser = argparse.ArgumentParser(description='Parse JAVA HPROF files')
    parser.add_argument('-f', '--filename', dest='filename', required=True,
                        help='HPROF file to parse')
    parser.add_argument('-t1', '--type-one', action='store_true',
                        help='Force Type 1 parsing of variables')
    parser.add_argument('-t2', '--type-two', action='store_true',
                        help='Force Type 2 parsing of variables')
    args = parser.parse_args()    if args.type_one == True and args.type_two == True:
       print("Error: Use -t1 or -t2, but not both")
       sys.exit(1)    else:       if args.type_one == True:
         flags['type_one'] = True
       else:
         flags['type_one'] = False
       if args.type_two == True:
         flags['type_two'] = True
       else:
         flags['type_two'] = False
    filename = args.filename
    fp = open(filename, 'rb')
    refs = ReferenceBuilder(fp, flags)
    refs.build()
    print("Variables:\n\n")    for i in refs.variables.keys():
       key = i.decode("utf-8")       for v in refs.variables<i>:
         print("%s: %s" % (key, v.decode("utf-8")))
    http_references = []
    secrets = []    for i in refs.references.keys():       if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
         data = refs.references<i>.ascii_data().decode("utf-8")         if 'HTTP/1.1' in data:
          http_references.append(data)         for k in regexes.keys():
          matches = regexes[k].findall(data)          if len(matches) != 0:
              secrets.append("TruffleHog (%s): %s. Identified from: \n%s" % (k, matches, data))
    print("\n\nHTTP References:\n\n")    for i in http_references:
       print(i + "\n")
    print("\n\nSecret References:\n\n")    for i in secrets:
       print(i + "\n")
main()

首先大致过一遍该代码执行的流程:

  1. 第13行代码到36行代码主要为该文件如何使用,type_one代表Spring 1.0 -f指定
  2. 第38行开始处理heapdump文件。

我们的重点就是开始从第40行开始看。结合上下代码及pyhprof库进行分析。首先我们设置好调试模式,开始慢慢调试:在第40行打断点

跳转到references.py中的ReferenceBuilder类中

这里的代码主要是接受-f参数指定的文件,并且判断flags是type_one还是type_two。然后往下调试进入到refs.build()方法处,跟进调试

此处会进入到read_hprof()方法中,而read_hprof可以看到红色箭头指的方向,在167行代码处,进入到了HProfParser进入解析器,往下调试进入到parsers.py文件中

上述代码中115到120行,都很容易看到,在121行中,u1 = self.u1() 此处u1我们目前不知道是什么,所以这里我们跟进第121行。

是一个读文件的操作,我们继续往下走

进入到122行代码,一个判断语句,当u1不为空,跳出判断,然后添加到f参数中

而通过调试信息,我们可以看到变量f的值是b'JAVA'。(b在Python中代表字节(bytes))。这里可以跳出了,因为这里实际上是一直在循环进行该操作,直到读取完毕。然后我们继续看一下代码:

def read_hprof(self):
        self.p = HProfParser(self.f)        for b in self.p:            if b.tag_name == 'HEAP_DUMP' or b.tag_name == 'HEAP_DUMP_SEGMENT':                return b            elif b.tag_name == 'STRING':
                self.strings[b.id] = b.contents            elif b.tag_name == 'LOAD_CLASS':
                self.class_name_ids[b.class_id] = b.class_name_id        raise RuntimeError("No HEAP_DUMP block")

其中代码:self.p = HProfParser(self.f) 其中f就是上面所说的变量f,它执行了一个读文件的过程,并且把文件的明文都存储在了f中。<br />为了更方便了解,将f打印出来,然后再慢慢进行

b'JAVA PROFILE 1.0.1'

这个是f的值,然后我们往下进行,进入for循环中,往下调试进入如下代码中

def __iter__(self):
        while True:            try:
                b = self.read_next_block()            except EOFError:                break
            if b is None:                break
            yield b

上述的代码,很痛看懂,我们主要了解的就是self.read_next_block()是什么?在该语句上进行断点,进入到如下代码

def read_next_block(self):
        tag = ord(self.u1())
        tag_name = TAGS.get(tag, 'UNKOWN')
        record_time = self.i4()
        length = self.i4()
        start = self.f.tell()
        self.seek(length)
        block = BLOCK_CLASSES_BY_TAG.get(tag_name, GenericBlock)(tag, self, record_time, start, length)        return block

self.u1前面说过是什么。然后看一下TAGS.get是从哪里来的。在此处断点进行调试

TAGS来源于constants.py文件中。然后我们看一下tag的ASCII是什么

此处也会循环一段时间,满足read_hprof方法中后,会跳出,并输出一个variables的列表。回到最新开始的代码中

for i in refs.variables.keys():
       key = i.decode("utf-8")       for v in refs.variables<i>:
         print("%s: %s" % (key, v.decode("utf-8")))
    http_references = []
    secrets = []    for i in refs.references.keys():       if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
         data = refs.references<i>.ascii_data().decode("utf-8")         if 'HTTP/1.1' in data:
          http_references.append(data)         for k in regexes.keys():
          matches = regexes[k].findall(data)          if len(matches) != 0:
              secrets.append("TruffleHog (%s): %s. Identified from: \n%s" % (k, matches, data))
    print("\n\nHTTP References:\n\n")    for i in http_references:
       print(i + "\n")
    print("\n\nSecret References:\n\n")    for i in secrets:
       print(i + "\n")

上述代码主要就是正则。。。

0x03 二开

其实最难的不是解析,而是如何处理文件,满足我们的需要。由于代码是老外编写,所以我们不得不进行二改,里面的正则匹配表达式几乎对我们来说没任何用处。

#!/bin/python3import refrom pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sysfrom colorama import Fore,initimport ast
logos = '''        __                              .__                
___  __|  | __       ___________________|__| ____    ____  
\  \/  /  |/ /      /  ___/\____ \_  __ \  |/    \  / ___\ 
 >    <|    <       \___ \ |  |_> >  | \/  |   |  \/ /_/  >
/__/\_ \__|_ \_____/____  >|   __/|__|  |__|___|  /\___  / 
      \/    \/_____/    \/ |__|                 \//_____/  '''def data_references(refs):
    http_reference = []    for i in refs.references.keys():        if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
            data = refs.references<i>.ascii_data().decode("utf-8")            if 'password' in data:
                http_reference.append(data)
    hister = "".join(http_reference)    with open('./cc.json', 'r') as f:
        regexes = ast.literal_eval(f.read())        for i in regexes.values():
            matches = re.compile(i, re.S)
            matchess = matches.findall(hister)            if len(matchess) != 0:                for k in matchess:
                    print(Fore.MAGENTA + "[Find+]:" + "\n" + k)def main():
    flags = {}
    parser = argparse.ArgumentParser(description='Parse JAVA HPROF files')
    print(Fore.CYAN + logos)
    parser.add_argument('-f', '--filename', dest='filename', required=True,
                        help='HPROF file to parse')
    parser.add_argument('-t1', '--type-one', action='store_true',
                        help='Force Type 1 parsing of variables')
    parser.add_argument('-t2', '--type-two', action='store_true',
                        help='Force Type 2 parsing of variables')
    args = parser.parse_args()    if args.type_one == True and args.type_two == True:
        print("Error: Use -t1 or -t2, but not both")
        sys.exit(1)    else:        if args.type_one == True:
            flags['type_one'] = True
        else:
            flags['type_one'] = False
        if args.type_two == True:
            flags['type_two'] = True
        else:
            flags['type_two'] = False
    filename = args.filename
    fp = open(filename, 'rb')
    refs = ReferenceBuilder(fp, flags)
    refs.build()
    data_references(refs)
main()

效果图:

ccc.json的文件内容如下

{    "RSA private key": "-----BEGIN RSA PRIVATE KEY-----",    "SSH (DSA) private key": "-----BEGIN DSA PRIVATE KEY-----",    "SSH (EC) private key": "-----BEGIN EC PRIVATE KEY-----",    "PGP private key block": "-----BEGIN PGP PRIVATE KEY BLOCK-----",    "AWS API Key": "((?:A3T[A-Z0-9]|AKIA|AGPA|AIDA|AROA|AIPA|ANPA|ANVA|ASIA)[A-Z0-9]{16})",    "Amazon MWS Auth Token": "amzn\\.mws\\.[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}",    "AWS API Keys": "AKIA[0-9A-Z]{16}",    "AWS AppSync GraphQL Key": "da2-[a-z0-9]{26}",    "GitHub": "[gG][iI][tT][hH][uU][bB].*['|\"][0-9a-zA-Z]{35,40}['|\"]",    "Password in URL": "[a-zA-Z]{3,10}://[^/\\s:@]{3,20}:[^/\\s:@]{3,20}@.{1,100}[\"'\\s]",    "password": "addresses: .*? username: .*? password: .*? "}

此处代码有些布局上的小瑕疵,各位师傅们请自行排版代码。


安利一款非常好用的工具:

https://github.com/wyzxxz/heapdump_tool


目录
相关文章
|
数据采集 XML 数据格式
#PY小贴士# BeautifulSoup的解析器选择
后来帮他 debug 了一番,发现原因是对方网页里的 HTML 代码写得不规范,中间多了个 </html>,导致解析时认为网页已经结束,把后面的内容都截断了。
|
11月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
285 2
|
7月前
|
算法 测试技术 C语言
深入理解HTTP/2:nghttp2库源码解析及客户端实现示例
通过解析nghttp2库的源码和实现一个简单的HTTP/2客户端示例,本文详细介绍了HTTP/2的关键特性和nghttp2的核心实现。了解这些内容可以帮助开发者更好地理解HTTP/2协议,提高Web应用的性能和用户体验。对于实际开发中的应用,可以根据需要进一步优化和扩展代码,以满足具体需求。
698 29
|
7月前
|
前端开发 数据安全/隐私保护 CDN
二次元聚合短视频解析去水印系统源码
二次元聚合短视频解析去水印系统源码
209 4
|
7月前
|
JavaScript 算法 前端开发
JS数组操作方法全景图,全网最全构建完整知识网络!js数组操作方法全集(实现筛选转换、随机排序洗牌算法、复杂数据处理统计等情景详解,附大量源码和易错点解析)
这些方法提供了对数组的全面操作,包括搜索、遍历、转换和聚合等。通过分为原地操作方法、非原地操作方法和其他方法便于您理解和记忆,并熟悉他们各自的使用方法与使用范围。详细的案例与进阶使用,方便您理解数组操作的底层原理。链式调用的几个案例,让您玩转数组操作。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
7月前
|
移动开发 前端开发 JavaScript
从入门到精通:H5游戏源码开发技术全解析与未来趋势洞察
H5游戏凭借其跨平台、易传播和开发成本低的优势,近年来发展迅猛。接下来,让我们深入了解 H5 游戏源码开发的技术教程以及未来的发展趋势。
|
7月前
|
存储 前端开发 JavaScript
在线教育网课系统源码开发指南:功能设计与技术实现深度解析
在线教育网课系统是近年来发展迅猛的教育形式的核心载体,具备用户管理、课程管理、教学互动、学习评估等功能。本文从功能和技术两方面解析其源码开发,涵盖前端(HTML5、CSS3、JavaScript等)、后端(Java、Python等)、流媒体及云计算技术,并强调安全性、稳定性和用户体验的重要性。
|
7月前
|
负载均衡 JavaScript 前端开发
分片上传技术全解析:原理、优势与应用(含简单实现源码)
分片上传通过将大文件分割成多个小的片段或块,然后并行或顺序地上传这些片段,从而提高上传效率和可靠性,特别适用于大文件的上传场景,尤其是在网络环境不佳时,分片上传能有效提高上传体验。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
10月前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
创建型模式的主要关注点是“怎样创建对象?”,它的主要特点是"将对象的创建与使用分离”。这样可以降低系统的耦合度,使用者不需要关注对象的创建细节。创建型模式分为5种:单例模式、工厂方法模式抽象工厂式、原型模式、建造者模式。
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
|
10月前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析

热门文章

最新文章

推荐镜像

更多
  • DNS