跟随Android进入ARM v8a的世界(1) - 从例子说起-阿里云开发者社区

开发者社区> 开发与运维> 正文

跟随Android进入ARM v8a的世界(1) - 从例子说起

简介: 清理一下去年的存货,讲64位ARM指令集和架构

跟随Android进入ARM v8a的世界

从例子说起

目前我们在Android上运行的ARM芯片,有6套指令集,32位的ARM v5指令集,16位的thumb指令集,32位的ARM v7a指令集,16位和32位混合的thumb2指令集,32位的ARM v7a带Neon的指令集,还有64位的ARM v8a指令集。
16位的Thumb指令集是个不完备的指令集,需要跟ARM指令混编才可以完成全部的功能。

我们先向经典致敬,看看求最大公约数的代码。

C代码是这样的:

unsigned int gcd(unsigned int a, unsigned int b){
    while(a!=b){
        if(a>b){
            a-=b;
        }else{
            b-=a;
        }
    }
    return a;
}

手工写出来的汇编是这样的:

.global gcd_asm
.func gcd_asm

gcd_asm:
    cmp r0,r1
    subgt r0,r0,r1
    sublt r1,r1,r0
    bne gcd_asm
    bx lr
.endfunc
.end

解释一下上面用到的指令:
cmp r0, r1:做一次r0-r1的减法,根据结果设置CPSR的值。如果r0-r1为0,那么将CPSR中表示为0的Z位置1,否则置0. 如果r0-r1>0,则将表示负数的N位l置0,如果r0-r1<0,则该位置1.
SUB是减法指令,GT和LT是条件执行指令。
SUBGT是在GT,即大于或等于的条件下执行该减法,同理,SUBLT是在小于或等于的情况下执行该减法。
BNE是在Z标志未置的情况下跳转。
BX是切换跳转,用于函数返回。

下面来看看gcc为我们编出了什么样的汇编代码。
ARM v5的ARM模式的指令是这样的:

00000fd8 <gcd>:
     fd8:    e1500001     cmp    r0, r1
     fdc:    012fff1e     bxeq     lr
     fe0:    e1500001     cmp    r0, r1
     fe4:    80610000     rsbhi    r0, r1, r0
     fe8:    90601001     rsbls    r1, r0, r1
     fec:    e1510000     cmp    r1, r0
     ff0:    1afffffa     bne    fe0 <gcd+0x8>
     ff4:    e12fff1e     bx    lr

可以看到,每条指令都32位长度。
BXEQ LR,上节介绍过BX了,EQ是条件执行。如果r0和r1相等则返回。
然后再做一次cmp。
RSB是反向的减法,RSB a b c,相当于a= c-b。而SUB a b c相当于a = b – c
HI是无符号数的大于,LS是无符号数的小于。
所以RSBHI和RSBLS跟之前的SUBGT和SUBLT本质上没有区别。
BNE和BX跟之前一样,就不多解释了。

ARM v7a的ARM模式的指令是这样的:

00000c7c <gcd>:
     c7c:    e1500001     cmp    r0, r1
     c80:    012fff1e     bxeq     lr
     c84:    e1500001     cmp    r0, r1
     c88:    80610000     rsbhi    r0, r1, r0
     c8c:    90601001     rsbls    r1, r0, r1
     c90:    e1510000     cmp    r1, r0
     c94:    1afffffa     bne    c84 <gcd+0x8>
     c98:    e12fff1e     bx    lr

由于逻辑太简单了,发挥不出ARM v7a指令集的优势,所以跟ARM v5是一样的。

Thumb指令是这样的:

00000fd0 <gcd>:
     fd0:    b500          push    {lr}
     fd2:    4288          cmp    r0, r1
     fd4:    d004          beq.n    fe0 <gcd+0x10>
     fd6:    d901          bls.n    fdc <gcd+0xc>
     fd8:    1a40          subs    r0, r0, r1
     fda:    e7fa          b.n    fd2 <gcd+0x2>
     fdc:    1a09          subs    r1, r1, r0
     fde:    e7f8          b.n    fd2 <gcd+0x2>
     fe0:    bd00          pop    {pc}

可以看到,指令是全16位的。
由于16位长指令的限制,SUB指令再做不了条件了,所以需要额外的比较和跳转指令。
Thumb2指令是这样的:

00000c6c <gcd>:
     c6c:    4288          cmp    r0, r1
     c6e:    d005          beq.n    c7c <gcd+0x10>
     c70:    bf8c          ite    hi
     c72:    ebc1 0000     rsbhi    r0, r1, r0
     c76:    ebc0 0101     rsbls    r1, r0, r1
     c7a:    e7f7          b.n    c6c <gcd>
     c7c:    4770          bx    lr

可以看到,是16位和32位混排的。
比较,跳转之类的还是16位指令,减法又把ARM32指令搬出来了。

最后,ARM64 v8-a出马了。先看看手写的是什么样的:

.global gcd_asm
.func gcd_asm

gcd_asm:
    subs w2, w0, w1
    csel w0, w2, w0, gt
    csneg w1, w1, w2, gt
    bne gcd_asm
    ret
.endfunc
.end

csel根据后面的条件决定如何赋值,如果是GT,则w0=w2,否则w0 = w0。
Csneg在csel的基础上,如果条件不符合的话,取第三个参数的反。
Csneg w1, w1, w2, gt相当于,如果是GT,则w1=w1,否则w1=-w2。

注意,虽然操作数变成64位了,指令长度还是32位的哈。

0000000000000504 <gcd>:
 504:    6b01001f     cmp    w0, w1
 508:    2a0003e2     mov    w2, w0
 50c:    54000140     b.eq    534 <gcd+0x30>
 510:    6b01005f     cmp    w2, w1
 514:    4b010040     sub    w0, w2, w1
 518:    1a828000     csel    w0, w0, w2, hi
 51c:    4b020023     sub    w3, w1, w2
 520:    6b01005f     cmp    w2, w1
 524:    2a0003e2     mov    w2, w0
 528:    1a838021     csel    w1, w1, w3, hi
 52c:    6b00003f     cmp    w1, w0
 530:    54ffff01     b.ne    510 <gcd+0xc>
 534:    d65f03c0     ret

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章