ART世界探险(4) - 数据传送指令和桶型移位器

简介: 指令系统的第一讲,我们学习一下数据传送指令和移位指令

ART世界探险(4) - 数据传送指令和桶型移位器

数据传送指令

将数在寄存器之间传递,或者将立即数传给寄存器。所谓的立即数,就是直接写在指令里的数,比如MOV X0,100,这个100就是立即数。立即数会存在指令的参数中。

将立即数传给寄存器:MOV

命令格式:MOV 寄存器, 立即数

AArch64状态下例:

MOV X0,100
MOV W1,200

AArch32状态例:

MOV R2,50

立即数取非送到寄存器:MVN

格式:MVN 寄存器,立即数

MVN X0,1,相当于X0=~1

我们写一个函数取非,看看编译成汇编指令是什么样子的.源代码如下:

long mvn(long value){
    return ~value;
}

反编译之后的代码:

; __int64 __fastcall mvn(__int64)
EXPORT _Z3mvnl
_Z3mvnl
MVN             X0, X0
RET

编译得真棒,就两条指令!

在AArch32下是这样的:

; _DWORD __fastcall mvn(__int32)
EXPORT _Z3mvnl
_Z3mvnl
MVNS            R0, R0
BX              LR

因为long在64位和32位系统上定义不同,所以在AArch64下是64位的,而编成AArch32下变成32位了。

然后我们看看同样的功能用java写出来之后,再通过ART编译之后的结果:

源码:

    public static long mvn(long value){
        return ~value;
    }

java字节码:

  public static long mvn(long);
    Code:
       0: lload_0
       1: ldc2_w        #2                  // long -1l
       4: lxor
       5: lreturn
  1. lload_0,从栈里将函数的实参取出来。
  2. ldc2_w,从常量池中读出参数-1l.
  3. 做异或运算。
  4. 返回长整型。

Dalvik字节码:

    DEX CODE:
      0x0000: 1600 ffff                    | const-wide/16 v0, #-1
      0x0002: c220                         | xor-long/2addr v0, v2
      0x0003: 1000                         | return-wide v0

Dalvik指令显示优势了,不用去查常量池了,直接立即数放在const-wide指令中。

OAT代码:

    CODE: (code_offset=0x005027fc size_offset=0x005027f8 size=80)...
      0x005027fc: d1400bf0    sub x16, sp, #0x2000 (8192)
      0x00502800: b940021f    ldr wzr, [x16]
      suspend point dex PC: 0x0000

首先将传进来的参数保存一下,x1是传进来的参数那个value,我们把它暂时存在sp+40位置。因为x1还要计算用。
LR的值也先存一下,函数返回的时候还得用呢。存到sp+24中。

      0x00502804: f81e0fe0    str x0, [sp, #-32]!
      0x00502808: f9000ffe    str lr, [sp, #24]
      0x0050280c: f90017e1    str x1, [sp, #40]

下面这两句是判断当前状态。
cbnz指令是不为0则跳转,跳转到pTestSuspend过程中去。

      0x00502810: 79400250    ldrh w16, [tr](state_and_flags)
      0x00502814: 35000170    cbnz w16, #+0x2c (addr 0x502840)

常量-1,传给x16.
stur,将这个常量-1存到sp+12的内存。
然后再从sp+12x内存把这个常量重新读出来到x0中。
sp+40这个值是我们刚开始进来时将第1个参数保存的地方,大家还记得吧?现在再把它重新装回x1里。

      0x00502818: 92800010    mov x16, #0xffffffffffffffff
      0x0050281c: f800c3f0    stur x16, [sp, #12]
      0x00502820: f840c3e0    ldur x0, [sp, #12]
      0x00502824: f94017e1    ldr x1, [sp, #40]

参数终于凑齐了,可以开始进行异或运算了。
ARM中的异或指令的助记符是EOR: eor x2, x0, x1

      0x00502828: ca010002    eor x2, x0, x1

异或的结果在x2里,把它暂时保存在sp+12中。
然后再从sp+12中把刚才x2那个计算结果放到x0中。因为返回参数要放在x0中。
从sp+24中再把LR的值读回来,恢复一下栈指针,然后就可以返回了。

      0x0050282c: f800c3e2    stur x2, [sp, #12]
      0x00502830: f840c3e0    ldur x0, [sp, #12]
      0x00502834: f9400ffe    ldr lr, [sp, #24]
      0x00502838: 910083ff    add sp, sp, #0x20 (32)
      0x0050283c: d65f03c0    ret

后面这段代码是给前面讲到的cbnz跳转用的。

      0x00502840: f9421e5e    ldr lr, [tr, #1080](pTestSuspend)
      0x00502844: d63f03c0    blr lr
      suspend point dex PC: 0x0000
      0x00502848: 17fffff4    b #-0x30 (addr 0x502818)

庆祝一下,虽然简单,但是我们已经看懂了一段真正OAT编译生成的代码了!

MOV操作SP

MOV指令操作SP或WSP,其实是ADD X1/SP, X2/SP, #0命令的别名。

例如:

MOV X0,SP

实际上是在执行:

ADD X0,SP,#0

MOV操作通用寄存器

这种情况下的MOV操作,实际上是ORR操作的别名。

例如:

MOV X0,X1
MOV W2,W3

分别相当于:

ORR X0,XZR,X1
ORR W2,WZR,W3

桶形移位器

在讲其它计算相关的指类之前,我们先看一个ARM芯片中特有的有趣的东西,叫做桶形移位器。

一般的计算操作,都是在算术逻辑单元ALU中完成的。但是ARM芯片在ALU之外,还有一个桶形的移位器,可以对数据进行移位的预处理,再送入到ALU中进行运算。
请注意,这个额外的移位操作是与ALU运算在同一个指令周期中完成的,桶形移位器的加入,增加了数据处理指令的灵活性。

在AArch64状态下,桶形移位器支持4种操作:

  • LSL:逻辑左移
  • LSR:逻辑右移
  • ASR:算术右移
  • ROR:循环右移

在AArch32状态下,还支持第5种操作:

  • RRX:扩展的循环右移

LSL逻辑左移

左移最省事,不用管符号,就相当于C语言中的:

unsigned long l_shift(unsigned long x0, unsigned long x1){
    return x0 << x1;
}

我们看看AArch64下反汇编的结果:

; __int64 __fastcall l_shift(unsigned __int64, unsigned __int64)
EXPORT _Z7l_shiftmm
_Z7l_shiftmm
LSL             X0, X0, X1
RET

太完美了!除了RET,就LSL一句话。

再来看看AArch32模式下的:

; _DWORD __fastcall l_shift(unsigned __int32, unsigned __int32)
EXPORT _Z7l_shiftmm
_Z7l_shiftmm
LSLS            R0, R1
BX              LR

LSL后面的S意思是修改标志位的状态,也就是说,比如移出的位是1,将更新C进位标志。

Java中的左移

我们看看对应的java写法,在java字节码,Dalvik字节码和OAT生成的代码中是什么样子吧:
Java字节码:

    Code:
       0: lload_1
       1: lload_3
       2: l2i
       3: lshl
       4: lreturn

lshl左移指令第二个参数需要int型,所以要多做一步l2i的操作。

Dalvik字节码:

  6: long com.yunos.xulun.testcppjni2.TestART.l_shift(long, long) (dex_method_idx=16779)
    DEX CODE:
      0x0000: 8460                         | long-to-int v0, v6
      0x0001: a300 0400                    | shl-long v0, v4, v0
      0x0003: 1000                         | return-wide v0

OAT代码:

前面的压栈备份,和检测是不是suspend状态的cbnz,上例已经讲过了,这里就不再讲了。

    CODE: (code_offset=0x0050295c size_offset=0x00502958 size=92)...
      0x0050295c: d1400bf0    sub x16, sp, #0x2000 (8192)
      0x00502960: b940021f    ldr wzr, [x16]
      suspend point dex PC: 0x0000
      GC map objects:  v3 ([sp + #40])
      0x00502964: f81e0fe0    str x0, [sp, #-32]!
      0x00502968: f9000ffe    str lr, [sp, #24]
      0x0050296c: b9002be1    str w1, [sp, #40]
      0x00502970: f802c3e2    stur x2, [sp, #44]
      0x00502974: f80343e3    stur x3, [sp, #52]
      0x00502978: 79400250    ldrh w16, [tr](state_and_flags)
      0x0050297c: 35000190    cbnz w16, #+0x30 (addr 0x5029ac)

sp+52是第二个长整数参数,读到x0中。
然后调用sbfx,带符号的扩展,取32位,结果放到w1中。这就完成了一次long-to-int的计算。
接着再把w1中的值存到栈里,sp+8中。
把第一个参数从sp+44中读出来,放到x0中。
再把刚存进sp+8中的long-to-int的值重新读回w1中,白折腾两趟,哈哈
终于可以运行lsl了,结果在x2中。
把x2存到sp+8中,再从sp+8折腾到x0,准备返回。

      0x00502980: f84343e0    ldur x0, [sp, #52]
      0x00502984: 13007c01    sbfx w1, w0, #0, #32
      0x00502988: b9000be1    str w1, [sp, #8]
      0x0050298c: f842c3e0    ldur x0, [sp, #44]
      0x00502990: b9400be1    ldr w1, [sp, #8]
      0x00502994: 9ac12002    lsl x2, x0, x1
      0x00502998: f90007e2    str x2, [sp, #8]
      0x0050299c: f94007e0    ldr x0, [sp, #8]
      0x005029a0: f9400ffe    ldr lr, [sp, #24]
      0x005029a4: 910083ff    add sp, sp, #0x20 (32)
      0x005029a8: d65f03c0    ret

后面还是pTestSuspend的调用。

      0x005029ac: f9421e5e    ldr lr, [tr, #1080](pTestSuspend)
      0x005029b0: d63f03c0    blr lr
      suspend point dex PC: 0x0000
      GC map objects:  v3 ([sp + #40])
      0x005029b4: 17fffff3    b #-0x34 (addr 0x502980)

LSR逻辑右移

相当于C语言中的无符号右移,我们用C语言模拟一下:

unsigned long r_shift(unsigned long x0, unsigned long x1){
    return x0 >> x1;
}

我们看看翻译的结果:
AArch64的:

; __int64 __fastcall r_shift(unsigned __int64, unsigned __int64)
EXPORT _Z7r_shiftmm
_Z7r_shiftmm
LSR             X0, X0, X1
RET

果然就被处理成LSR了!

再看AArch32的:

; _DWORD __fastcall r_shift(unsigned __int32, unsigned __int32)
EXPORT _Z7r_shiftmm
_Z7r_shiftmm
LSRS            R0, R1
BX              LR

LSRS,带置位的LSR,非常棒。

ASR算术右移

就是带符号的右移,我们用C模拟一下:

    public static long r_shift(long x0, long x1){
        return x0 >> x1;
    }

不出我们所料,就直接是ASR啊。

; __int64 __fastcall r_shift2(__int64, __int64)
EXPORT _Z8r_shift2ll
_Z8r_shift2ll
ASR             X0, X0, X1
RET

AArch32下,也就是ASRS:

; _DWORD __fastcall r_shift2(__int32, __int32)
EXPORT _Z8r_shift2ll
_Z8r_shift2ll
ASRS            R0, R1
BX              LR

Java中对应的指令是lshr,Dalvik指令shr-long,其它跟左移都一样。

循环右移ROR

这个就不多讲了,将右移出去的值补到左边。

扩展循环右移

就是C作为符号位放到最左边。

传送数据与桶移位同时进行

ARM的魔法开始了,我们可以将一个寄存器中的值左移两位,再送到另一个寄存器中:

MVN X0,X1,LSL #2

只需要一个指令周期哟。

以后我们学习了计算指令如加减之类的,也照样可以使用这个桶形移位器,比如一个数加另一个数乘以2的倍数,只要一条加法就搞定了。

小结

这次探险先到这里,我们学习了桶形移位器,这是个可以在ALU运算前对第二个操作数进行操作的神奇器件。
同时也学习了MOV, MVN和几个可以单独使用的移位指令,以及他们对应的java指令。

目录
相关文章
|
2月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
300 1
|
算法 前端开发 Java
信创环境下达梦数据库唯一索引异常无法拦截DuplicateKeyException
迁移到达梦数据库后,发现我们的全局异常拦截中的唯一索引异常 无法被正常拦截,给前端直接抛出了数据库原始的错误信息,对用户极其不友好。如果不对唯一索引异常拦截,则默认 与 的异常信息如下:在 中通过 注解,实现对异常响应的统一封装。可参考:全栈开发之后端脚手架:SpringBoot集成MybatisPlus代码生成,分页,雪花算法,统一响应,异常拦截,Swagger3接口文档以下是对数据库唯一索引异常的拦截,统一返回:编号不可重复。 问题分析 对主流的数据库的异常进行了封装与翻译,对于 都可以进行拦截,但是到了国产数据库,比如这里是达梦8,那么其异常信息 `Spring` 就不认识
2238 0
|
2月前
|
弹性计算 搜索推荐 异构计算
阿里云服务器收费标准:包年包月和按量付费费用整理
阿里云服务器提供包年包月与按量付费两种模式,包年包月低至38元起/年,涵盖2核2G到8核32G多款爆款配置,轻量应用服务器享200M峰值带宽不限流量,香港节点25元/月起,GPU服务器亦有优惠,新老用户均可享大幅折扣。
627 40
|
缓存 数据安全/隐私保护 Kotlin
Kotlin 中的网络请求代理设置最佳实践
Kotlin 中的网络请求代理设置最佳实践
|
2月前
|
人工智能 开发者
从技术到品牌:一个AI指令,让开发者也能写出动人的品牌故事
开发者常擅技术却困于品牌叙事。本文分享一套结构化AI指令,结合DeepSeek、通义千问等国产工具,将品牌故事拆解为可执行模块,助力技术人快速生成有温度、有逻辑的品牌故事框架,实现从代码到共鸣的跨越。
186 5
|
2月前
|
人工智能 缓存 数据可视化
复盘:利用 Coze+Kimi 搭建自动财报分析“金融助理”的方法
本文手把手教你如何利用Coze与Kimi搭建智能财报分析助手。从环境部署、工作流设计到专业提示词编写,完整展示5分钟内实现财务指标计算、趋势分析和风险提示的自动化流程,有效提升投研效率。
|
4月前
|
C++ Windows
0xc0000142修复步骤图解
遇到0xc0000142错误时,可以按照以下步骤进行修复,并附上图解说明: 修改系统区域语言‌
|
消息中间件 Prometheus 监控
AMQP 性能调优及优化技巧
【8月更文第28天】高级消息队列协议 (AMQP) 提供了一种标准化的方式来处理消息队列。然而,在实际部署中,为了满足高并发和低延迟的需求,需要对 AMQP 服务器及其相关的客户端进行适当的性能调优。本文将介绍如何针对特定的工作负载优化 AMQP 服务器和网络配置。
307 1
|
机器学习/深度学习 自然语言处理 算法
什么是自然语言处理的语义理解?
【4月更文挑战第8天】
575 2
什么是自然语言处理的语义理解?
|
资源调度 前端开发 NoSQL
node 使用qq邮箱发送邮件 进行验证码校验
node 使用qq邮箱发送邮件 进行验证码校验
459 0

热门文章

最新文章