Android代码入侵原理解析(一)

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

Android代码入侵原理解析(一)

 

 

 

 


 

1.代码入侵原理

代码入侵,或者叫代码注入,指的是让目标应用/进程执行指定的代码。代码入侵,可以在应用进行运行过程中进行动态分析,也是对应用进行攻击的一种常见方式。我把代码入侵分为两种类型:静态和动态。静态代码入侵是直接修改相关代码,在应用启动和运行之前,指定代码就已经和应用代码关联起来。动态代码入侵是应用启动之后,控制应用运行进程,动态加载和运行指定代码。


2.静态代码入侵

静态代码入侵,有直接和间接的手段。

直接手段是修改应用本身代码。修改应用本身代码,在Android和iOS移动操作系统上,一般利用重打包的方式来完成。攻击者需要对应用安装包文件,完成解包、插入指定代码、重打包的三个步骤。现在用到的代码插桩技术和这个比较类似,只不过是代码注入的工作直接在编译过程中完成了。

间接手段是修改应用运行环境。关于应用运行环境,可以是修改和替换关键系统文件,如xposed通过修改应用启动的系统文件 /system/bin/app_process 实现代码注入。可以造出一套模拟的系统运行环境,如应用运行沙箱、应用双开器等。对于Android系统,可以自行修改系统编译rom。


3.动态代码入侵

这里以Android系统为例,说明动态代码入侵的整个过程(单指代码注入,不包括后续控制逻辑的实现)。动态代码入侵需要在应用进程运行过程中,控制进程加载和运行指定代码。控制应用进程,我们需要用到ptrace。ptrace是类unix系统中的一个系统调用,通过ptrace我们可以查看和修改进程的内部状态,能够修改目标进程中的寄存器和内存,实现目标进程的断点调试、监视和控制。常见的调试工具如:gdb, strace, ltrace等,这些调试工具都是依赖ptrace来工作的。


关于ptrace,可以参考维基百科的说明:https://en.wikipedia.org/wiki/Ptrace

long ptrace(int request, pid_t pid, void *addr, void *data);
pid: 目标进程
addr: 目标地址
data: 操作数据
request:
PTRACE_ATTACH
PTRACE_DETACH
PTRACE_CONT
PTRACE_GETREGS
PTRACE_SETREGS
PTRACE_POKETEXT
PTRACE_PEEKTEXT


ptrace的功能主要是以下:

1)进程挂载

2)进程脱离

3)进程运行

4)读寄存器

5)写寄存器

6)读内存

7)写内存


进程被挂载后处于跟踪状态(traced mode),这种状态下运行的进程收到任何signal信号都会停止运行。利用这个特性,可以很方便地对进程持续性的操作:查看、修改、确认、继续修改,直到满足要求为止。进程脱离挂载后,会继续以正常模式(untraced mode)运行。


3.1 动态代码注入的步骤

1)挂载进程

2)备份进程现场

3)代码注入

4)恢复现场

5)脱离挂载

其中,代码注入的过程相对复杂,因为代码注入过程和cpu架构强相关,需要先了解Android系统底层的ARM架构。


3.2 ARM架构简介

ARM处理器在用户模式和系统模式下有16个公共寄存器:r0~r15。

有特殊用途的通用寄存器(除了做通用寄存器,还有以下功能):

r0~r3: 函数调用时用来传递参数,最多4个参数,多于4个参数时使用堆栈传递多余的参数。其中,r0还用来存储函数返回值。

r13:堆栈指针寄存器sp。

r14:链接寄存器lr,一般用来表示程序的返回地址。

r15:程序计数器pc,当前指令地址。


状态寄存器cpsr:

N=1:负数或小于(negtive)

Z=1:等于零(zero)

C=1:有进位或借位扩展

V=1:有溢出

I=1:IRQ禁止interrupt

F=1:FIQ禁止fast

T=1/0:Thumb/ARM状态位

其中,T位需要注意。程序计数器pc(r15)末位为1时T位置1,否则T位置0。




代码动态注入过程中,前面的准备和后面的收尾工作比较简单,较复杂的是中间的代码注入。整体过程的基础代码如下:




3.3 代码注入过程

代码注入需要完成在目标进程内加载和运行指定代码。指定代码的一般形式是so文件。动态加载so需要使用到linker提供的相关方法。关于linker,请阅读《程序员的自我修养-链接、装载与库》。具体来说,代码注入过程分为三步,也就是三次函数调用:

1)dlopen加载so文件

2)dlsym获取so的入口函数地址

3)调用so入口函数


和正常调用函数相比,通过ptrace在目标进程中调用函数是完全不同的,是通过直接修改寄存器和内存数据来实现函数调用。具体来说,有几点需要注意:


1)获取函数地址

调用函数首先要知道函数地址。因为ASLR(地址空间格局随机化,Address Space Layout Randomization)的影响,父进程孵化子进程时,系统动态库的基地址会随机变化,具体表现为,相同的系统动态库在不同子进程中的内存地址是不同的。我们可以利用下面的简单公式来计算得到我们需要用到的相关函数在目标进程中的地址:address = base + offset

其中,base是函数实现所在动态库的基地址,offset是函数在动态库中的偏移地址。

在Linux系统中,可以通过/proc/<pid>/maps查看进程的虚拟地址空间(查看非当前进程需要root权限),包括进程的所有动态库的base。通过动态库文件名查询虚拟地址空间获取base。offset值是函数地址在动态库中的偏移,可以直接静态查看动态库文件获得函数偏移地址,也可以在其他应用运行时计算得出:offset = address - base。具体到代码注入,需要用到的函数dlopen和dlsym,其实现代码所在文件为 /system/bin/linker(为什么开发过程中使用dlopen、dlsym, 编译时链接的是文件libdl.so,运行时链接的却是另外一个文件 /system/bin/linker,这里不做详述)。


2)函数调用参数传递和返回值获取

对于ARM体系来说,函数调用遵循的是 ATPCS(ARM-Thumb Procedure Call Standard),ATPCS建议函数的形参不超过4个,如果形参个数少于或等于4,则形参由R0、R1、R2、R3四个寄存器进行传递;若形参个数大于4,大于4的部分必须通过堆栈进行传递。函数调用的返回值通过R0传递。


3) 内存分配/获取

像字符串类型这样的参数运行时需要占用内存。当然我们可以通过调用malloc来动态申请内存。但是,正如之前介绍的,通过ptrace进行函数调用的过程有些复杂。我们直接使用栈的内存空间更加方便。通过栈指针sp,我们将数据放到栈暂时不用的内存空间,也能省去释放内存空间的繁琐。


4)函数调用后重获控制权

代码注入需要多次函数调用,我们希望调用第一个函数之后,进程马上停下来,等待后续其他的函数调用。这里,我们需要使用到lr寄存器。通过设置lr为非法地址(一般设为0),可以使得函数返回时出错,触发非法指令的signal信号,进程停止。然后,我们可以重设进程状态,执行后面其他的函数调用。

 

 

 

本文来自合作伙伴“阿里聚安全”,发表于2017年05月09日 09:40.

相关文章
|
20天前
|
安全 算法 网络协议
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
|
12天前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
161 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
13天前
|
机器学习/深度学习 缓存 自然语言处理
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
50 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
|
2天前
|
XML JavaScript Android开发
【Android】网络技术知识总结之WebView,HttpURLConnection,OKHttp,XML的pull解析方式
本文总结了Android中几种常用的网络技术,包括WebView、HttpURLConnection、OKHttp和XML的Pull解析方式。每种技术都有其独特的特点和适用场景。理解并熟练运用这些技术,可以帮助开发者构建高效、可靠的网络应用程序。通过示例代码和详细解释,本文为开发者提供了实用的参考和指导。
41 15
|
1月前
|
机器学习/深度学习 算法 数据挖掘
解析静态代理IP改善游戏体验的原理
静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。
78 22
解析静态代理IP改善游戏体验的原理
|
1月前
|
编解码 缓存 Prometheus
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
101 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
|
13天前
|
传感器 监控 Java
Java代码结构解析:类、方法、主函数(1分钟解剖室)
### Java代码结构简介 掌握Java代码结构如同拥有程序世界的建筑蓝图,类、方法和主函数构成“黄金三角”。类是独立的容器,承载成员变量和方法;方法实现特定功能,参数控制输入环境;主函数是程序入口。常见错误包括类名与文件名不匹配、忘记static修饰符和花括号未闭合。通过实战案例学习电商系统、游戏角色控制和物联网设备监控,理解类的作用、方法类型和主函数任务,避免典型错误,逐步提升编程能力。 **脑图速记法**:类如太空站,方法即舱段;main是发射台,static不能换;文件名对仗,括号要成双;参数是坐标,void不返航。
36 5
|
23天前
|
Java 数据库 开发者
详细介绍SpringBoot启动流程及配置类解析原理
通过对 Spring Boot 启动流程及配置类解析原理的深入分析,我们可以看到 Spring Boot 在启动时的灵活性和可扩展性。理解这些机制不仅有助于开发者更好地使用 Spring Boot 进行应用开发,还能够在面对问题时,迅速定位和解决问题。希望本文能为您在 Spring Boot 开发过程中提供有效的指导和帮助。
75 12
|
21天前
|
开发框架 监控 JavaScript
解锁鸿蒙装饰器:应用、原理与优势全解析
ArkTS提供了多维度的状态管理机制。在UI开发框架中,与UI相关联的数据可以在组件内使用,也可以在不同组件层级间传递,比如父子组件之间、爷孙组件之间,还可以在应用全局范围内传递或跨设备传递。
42 2
|
24天前
|
人工智能 文字识别 自然语言处理
保单AI识别技术及代码示例解析
车险保单包含基础信息、车辆信息、人员信息、保险条款及特别约定等关键内容。AI识别技术通过OCR、文档结构化解析和数据校验,实现对保单信息的精准提取。然而,版式多样性、信息复杂性、图像质量和法律术语解析是主要挑战。Python代码示例展示了如何使用PaddleOCR进行保单信息抽取,并提出了定制化训练、版式分析等优化方向。典型应用场景包括智能录入、快速核保、理赔自动化等。未来将向多模态融合、自适应学习和跨区域兼容性发展。

热门文章

最新文章

推荐镜像

更多