4. 大小端介绍
概念:
大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;
小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位,,保存在内存的高地址中。
为什么有大端和小端?
为什么会有大小端模式之分呢?这是因为在计算机系统中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为8 bit。但是在C语言中除了8 bit的char之外,还有16 bit的short 型,32 bit的long型(要看具体的编译器),另外,对于位数大于8位的处理器,例如16位或者32 位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如:一个 16bit 的 short 型 x ,在内存中的地址为 0x0010 , x 的值为 0x1122 ,那么 0x11 为 高字节, 0x22 为低字节。对于大端模式,就将 0x11 放在低地址中,即 0x0010 中, 0x22 放在高 地址中,即 0x0011 中。小端模式,刚好相反。我们常用的 X86 结构是小端模式,而 KEIL C51 则 为大端模式。很多的ARM,DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式 还是小端模式。
字节序:以字节为单位讨论数据的存储的。一个char类型只占用一个字节,所以对char类型讨论大小端字节序是没有意义的,这里大小端字节序是针对占用的内存空间大于1个字节的整数数据类型的。
大小端字节序是由电脑内置部件决定的,与编译器的类型无关。这里作者的电脑是以小端字节序存储的。
4.1 练习
Q1
请简述大端字节序和小端字节序的概念,设计一个小程序来判断当前机器的字节序。
Answer:
#include <stdio.h> int check_sys() { int i = 1; return (*(char *)&i); } int main() { int ret = check_sys(); if(ret == 1) { printf("小端\n"); } else { printf("大端\n"); } return 0; }
以下是错误的写法:
int main()//这种是错误的 { int a = 0x11223344; char b = (char)a;//无论如何b拿到的都是a的最低字节的数据 if (b == 0x44) printf("小端!\n"); if (b == 0x11) printf("大端!\n"); return 0; }
上面这段代码无论如何b拿到的都是a的最低字节的数据 。
Q2
//输出什么? #include <stdio.h> int main() { char a= -1; unsigned char c=-1; printf("a=%d,c=%d",a,c); return 0; }
char a= -1;//-1的二进制补码是32个1。因为char只有一个字节,存放不下,先发生截断,a中存放的就是8个1。
unsigned char c = -1;//c也是只有1个字节,发生截断,存放的也是8个1。
当 printf("a = %d,c = %d",a,c);执行时,由于%d代表的是有符号打印,所以a和c均会发生整形提升:
先看a的整形提升:a是有符号数,整形提升时补的是符号位,所以就补1,变成32个1,又因为是以有符号的形式打印,而符号位又是1,所以将32个1翻译成原码就是-1,即打印-1.
再看b的整形提升,b是无符号数,整形提升时,最高位补0,所以b就变成了24个0和8个1,又因为是以有符号的形式打印,而符号位是0,翻译成原码就是255。
运行结果:
Q3
//输出什么? #include <stdio.h> int main() { char a = -128; printf("%u\n",a); return 0; }
-128的
原码:100000000000000000000000010000000
反码:111111111111111111111111101111111
补码:111111111111111111111111110000000
由于a只有8比特的空间,所以发生截断,a中存放的是:10000000
在执行 printf("%u\n",a);语句时,因为%u是无符号整形打印:所以a会发生整形提升,由于a是signed char,为有符号类型,整形提升时高位补符号位的数,也就是补1,所以此时a中存放的是:11111111111111111111111110000000,因为是%u无符号打印,所以直接将这串二进制序列看作原码进行打印。
运行结果:
Q4
//输出什么? #include <stdio.h> int main() { char a = 128; printf("%u\n",a); return 0; }
先写出128的补码,再截断存储到a中,a中存放的也是:10000000,与Q3类似。
运行结果:
Q5
int main() { //输出什么? int i = -20; unsigned int j = 10; printf("%d\n", i + j); //按照补码的形式进行运算,最后格式化成为有符号整数 return 0; }
先写出i的
原码:10000000000000000000000000010100
反码:11111111111111111111111111101011
补码:11111111111111111111111111101100
写出j的
补码:00000000000000000000000000001010
接着让这两个补码相加:
11111111111111111111111111101100+
00000000000000000000000000001010=
11111111111111111111111111110110
又因为是%d以有符号整形进行打印,所以将相加之后的二进制的最高位看作符号位。所以这里将相加得到的二进制序列转换成原码:10000000000000000000000000001010,也就是-1。
运行结果:
Q6
//输出什么? unsigned int i; for(i = 9; i >= 0; i--) { printf("%u\n",i); }
这里由于i的数据类型是unsigned int 类型,是恒>=0的,所以I>0这个条件会一直满足,程序发生死循环。
运行结果:发生死循环
Q7
//输出什么? int main() { char a[1000]; int i; for(i=0; i<1000; i++) { a[i] = -1-i; } printf("%d",strlen(a)); return 0; }
这里arr[i]的值一开始是-1,-2,-3……当arr[i]的值变成-128时,,由本文之前画的图可知,此时再减1就会变成127,接着就是126,125,……1,0.这里strlen计算数组的长度时,会遇到’\0’才停止,而’\0’的ascll码值就是0,即这里数组的长度就是当arr[i]变成0之前的元素的个数,这里由-1到-128,再由-128到127再到1,一共有255个元素。所以结果就是255.
运行结果:
Q8
//输出什么? #include <stdio.h> unsigned char i = 0; int main() { for(i = 0;i<=255;i++) { printf("hello world\n"); } return 0; }
此处由于i的数据类型是unsigned char 其数据范围是[0,255],始终是大于0的,所以会一直打印,发生死循环。
运行结果:发生死循环