插件化框架设计(一) Class 文件与 Dex 文件的结构解读

简介: Class 文件是 Java 虚拟机定义并被其所识别的文件格式,通俗地讲,每一个接口或者类对应一个 Class 文件。Dex 是 Android 平台上(Dalvik 虚拟机,art 虚拟机)的可执行文件,每个 APK 压缩包中都包含一个(或者多个 MultiDex)Dex 文件,Dex 文件中包含了 app 的所有源码

一、Class文件

Class 文件是 Java 虚拟机定义并被其所识别的文件格式,通俗地讲,每一个接口或者类对应一个 Class 文件

1. Class 文件格式

1.Class 文件是一组以 8 位字节为基础单位的的二进制流。
2.各数据项目之间没有任何分隔符
3.Class 文件格式采用的结构只有两种数据结构:无符号数和表。
4.无符号数:以 u1,u2 等表示 1,2 个字节的无符号数,无符号数可用于描述数字、索引引用、数量值、字符串值。
5.表:以多个无符号数或者表组成,通常以_info 结尾,整个 Class 文件就是一张表

2. Class 文件组成

image.png

  • 魔数:Class 文件开始四个字节是魔数,用于验证该文件是否能被虚拟机执行
  • 版本号:魔数后四个字节则是 Class 文件的主版本号和次版本号
  • 常量池:版本号后面紧跟着的则是常量池部分。常量池不同与 java 中,它是由 1 开始计数的,常量痴表的数目是常量个数减一。第 0 项为保留项目,用于指示当前 Class 文件不需要引用任何一个常量池。常量池中主要包含两大类常量:
  • 字面量:包括文本字符串,被声明为 final 的常量值符号引用:包括类和接口的权限定名,字段的名称和描述符,方法的名称和描述符
  • 访问标志:常量池部分结束后则是访问标志部分,该部分包括信息:是类还是接口,是否定义为 public,是否 final,是否 abstract 等信息。
  • 访问标志之后则是类索引,父类索引,接口索引集合部分,该部分的主要信息为:该类的信息的索引,父类的信息的索引,实现接口的个数和对应接口信息的索引。(通过指向一个类型为 CONSTANT_Class_info 的类描述符常量,从而在对应的常量池找到相关信息)
  • 字段表:接下来的部分则是用于描述类声明的变量信息,包括变量的作用域,是否为 static,是否为 final 等信息。
  • 方法表:方法表则是用于描述类中方法的信息,与字段表类似。
  • 属性表:属性表在字段表和方法表中都会出现,主要用于描述某些场景特有的信息。比如方法是否抛出异常,被 final 声明的变量的值,内部类列表等信息。

二、Dex文件

Dex 是 Android 平台上(Dalvik 虚拟机,art 虚拟机)的可执行文件,每个 APK 压缩包中都包含一个(或者多个 MultiDex)Dex 文件,Dex 文件中包含了 app 的所有源码。

1. Dex文件的结构

  1. Dex 文件是一组以 8 位字节为基础单位的的二进制流。
  2. Dex 文件的各数据项目之间也没有任何分隔符
  3. Dex 文件由文件头,索引区,数据区三个部分组成

image.png

其各个元素的解释如下:

  • header:dex 文件头部,记录整个 dex 文件的相关属性
  • string_ids:字符串数据索引,记录了每个字符串在数据区的偏移量
  • type_ids:类型数据索引,记录了每个类型的字符串索引
  • proto_ids:原型数据索引,记录了方法声明的字符串,返回类型字符串,参数列表
  • field_ids:字段数据索引,记录了所属类,类型以及方法名
  • method_ids:类方法索引,记录方法所属类名,方法声明以及方法名等信息
  • class_defs:类定义数据索引,记录指定类各类信息,包括接口,超类,类数据偏移量
  • data:数据区,保存了各个类的真实数据
  • link_data:连接数据区

2.header

文件头记录了 dex 文件的一些基本信息, 以及大致的数据分布。其各字段及解释
image.png

image.png

3. 索引区

索引区中索引了整个 dex 中的字符串、类型、方法声明、字段以及方法的信息, 其结构体的开始位置和个数均来自 dex 文件头中的记录

  • 字符串索引区:描述 dex 文件中所有的字符串信息
  • 类型索引区:描述 dex 文件中所有的类型, 如类类型、基本类型、返回值类型等
  • 方法声明索引区:描述 dex 文件中所有的方法声明
  • 字段索引区:描述 dex 文件中所有的字段声明, 这个结构中的数据全部都是索引值, 指明了字段所在的类、字段的类型以及字段名称
  • 方法索引区:描述 Dex 文件中所有的方法, 指明了方法所在的类、方法的声明以及方法名字

4. 数据区

索引区中的最终数据偏移以及文件头中描述的偏移都指向数据区, 还包括了即将要解析的 class_def_item

  • class_def_item:这个结构由 dex 文件头中的 classDefsSize 和 classDefsOff所指向, 描述 Dex 文件中所有类定义信息, 每一个 DexClassDef 中包含一个DexClassData 的结构(classDataOff),每一个 DexClassData 中包含了一个 Class的数据, Class 数据中包含了所有的方法, 方法中包含了该方法中的所有指令

三、Class 文件和 Dex 文件对比

  • Class 文件是 JVM 的执行文件,而 Dex 文件是安卓虚拟机(Dalvik,art)的执行文件
  • Class 文件对应 Java 中每一个类,而 Dex 文件则包含整个 APK 文件中的JAVA 代码,故 Dex 文件可以大大缩小体积,减少 Class 文件的数据冗余,有利于在移动端中运行。(可以通过 SDK 中的 dx 命令将若干个 Class 文件转化为 Dex
相关文章
|
3月前
|
数据采集 人工智能 测试技术
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了
【6月更文挑战第5天】TinyLLaVA Factory是新推出的开源模块化代码库,简化小规模多模态模型的设计与训练,采用工厂模式,允许用户通过添加或替换少量文件轻松重构模型组件,提高开发效率。该库支持定制LMMs并提供训练配方,通过模块化和开源促进社区合作,已实验证实在复现性能上与原始模型相当。尽管面临兼容性等挑战,但其前瞻性的技术路线图确保了其在AI领域的相关性和活力。论文链接:[arxiv.org/abs/2405.11788](https://arxiv.org/abs/2405.11788)
66 0
|
4月前
|
XML 自然语言处理 开发者
定制化IDL文件设计:面向具体需求的接口定义方法
定制化IDL文件设计:面向具体需求的接口定义方法
137 2
|
存储 人工智能 Java
一起来学字节码插桩:从分析class文件结构开始
`Java` 能做到 `一次编译,到处运行`,主要就是靠 `class字节码` 文件,也就是 `java` 文件经过编译之后 `.java -> .class`,然后再被` JVM` 虚拟机加载。其实,不仅是 `java` 语言,只要是符合规则的 `class` 字节码文件,都可以被 `JVM` 加载
129 0
|
Java 索引
Class文件结构分析
Class文件结构分析 1. Class文件的结构概览图 2. 每一项数据说明 类型 名称 数量 说明 u4 magic 1 魔数:确定一个文件是否是Class文件 u2 minor_version
93 0
|
存储 XML Oracle
【JVM深度解析】Class文件结构
你了解Class文件结构吗?那你知道为什么会有魔数吗?定义的类变量会在什么地方出现呢?...不懂?一文带你了解Class文件结构。
【JVM深度解析】Class文件结构
|
Java Scala Kotlin
深入学习和认识class文件内部结构
深入学习和认识class文件内部结构
130 0
|
存储 编译器 C++
iOS-底层原理 08:类 & 类结构分析
iOS-底层原理 08:类 & 类结构分析
151 0
iOS-底层原理 08:类 & 类结构分析
|
Android开发
【Android 插件化】Hook 插件化框架 ( 创建插件应用 | 拷贝插件 APK | 初始化插件包 | 测试插件 DEX 字节码 )
【Android 插件化】Hook 插件化框架 ( 创建插件应用 | 拷贝插件 APK | 初始化插件包 | 测试插件 DEX 字节码 )
205 0
【Android 插件化】Hook 插件化框架 ( 创建插件应用 | 拷贝插件 APK | 初始化插件包 | 测试插件 DEX 字节码 )
|
Java Android开发
【Android 热修复】热修复原理 ( 多 Dex 打包机制 | 多 Dex 支持 | Dex 分包设置 | 开发和产品风格设置 | 源码资源 )
【Android 热修复】热修复原理 ( 多 Dex 打包机制 | 多 Dex 支持 | Dex 分包设置 | 开发和产品风格设置 | 源码资源 )
265 0
【Android 热修复】热修复原理 ( 多 Dex 打包机制 | 多 Dex 支持 | Dex 分包设置 | 开发和产品风格设置 | 源码资源 )
|
存储 JavaScript Java
用Java实现JVM第三章《解析class文件》附[classReader拆解]
按照如下虚拟机规范,本文主要介绍java版本jvm提取class字节码方式。在java中没有无符号类型,例如js中byte取值是0~255、java中是-128 ~ +127,所以在实际处理字节码时[虚拟机规范u1、u2、u4],需要进行转换。
112 0
用Java实现JVM第三章《解析class文件》附[classReader拆解]