浮点数存储规则
根据国际标准IEEE(电气和电子工程协会) 754,任意一个二进制浮点数V可以表示成下面的形式:
(-1)^S * M * 2^E。
(-1)^S表示符号位,当S=0,V为正数;当S=1,V为负数。
M表示有效数字,大于等于1,小于2。
2^E表示指数位。
所以对于浮点数的存储 S、M、E这三个值非常重要。
下面举两个例子:
十进制的5.5,转化成二进制就是101.1,按照科学计数法可以写成1.011*2^2 = (-1 )^0 * 1.011 * 2^2,这里的S就是0,M就是1.011,E就是2
十进制的0.5,转化成二进制就是0.1,转化成科学计数法就是1.0*2^-1 = (-1)^0 * 1.0 * 2^-1,这里S就是0,M是0.1,E是-1
所以从这里可以看出,E的值可以为正数,也可以为负数。
IEEE 754规定:
对于32位的浮点数,最好的一位是符号位S,节着是8位的指数E,剩余的23位为有效数字M
对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M。
S、M、E的存储
S
S在内存中的存储是比较简单的
S为符号位,因为是(-1)^S,所以S为0时,为正;S为1是,为负数
S只有0和1两种可能
无论是float类型还是double类型,S都是存储在第一位。
M
从前面知道,M是一个大于等于1,小于2的数,也就是可以写成1.xxxx的形式,xxxxx表示小数部分
这里IEEE754有特殊规定:
在计算机内部保存M时,默认这个数的第一位总是1,因此可以舍去,也就是保存后面的xxxx部分
等到读取的时候,再把第一位加上
比如保存十进制的5.5时,5.5的M为1.011,存到内存中就是011,剩余的比特位用0补
5.5f的M值存储在内存中为01100000000000000000000,在011后面补了20个0。
规定这么做的目的是省去了储存小数点前面1在内存中占用的空间,节省一位有效数字。
使得32位浮点数中M的23个比特位存储24个有效数字以及64位浮点数中M的52比特位存储53个有效数字
因为小数点前的1本身就是有效数字,如果将这个1存储到内存中,以32位浮点数为例,属于M的23个比特位中只能存放小数点后面的22位。
如果将小数点前的1省略掉,那么23个比特位全部存储小数点后的数,也就是多存储了一位
E
E的情况就比较复杂
E是一个无符号整数(unsigned int),所以如果E是8位,它的取值范围是0~ 255,如果是E是11位,则取值范围是0 ~ 2047
从前面的举例可以看出,E课以是正数或者负数,可是E是一个无符号的数,所以无法存储负数
所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。
比如:
5.5f的E为2,2+127 = 129,所以将129的二进制存到E的8比特位中
0.5的E位-1,-1+127 = 126,所以将129的二进制存到E的8比特位中
数据从内存中的取出
E不全为0或不全为1
内存中第一位就是符号位S
指数E的计算值减去127(或1023),得到真实值
有效数字M前加上第一位的1
E全为0
E是加了127或1023再放进内存中的,全为0就说明E是一个特别小的数
一个1.xxx再乘上2^-127是非常小的,无限接近于0
此时,有效数字M不再加上第一位的1,而是还原为0.xxxxx,这样做是为了表示0,以及接近于0的很小的数
这里的指数E就等于1-127 = -126(或1-1023 = -1022),即为真实值
E全为1
8个全1是255,这是加上127后的,所以E的值为128
2^128是很大的数
这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s)
实例
实例1
以5.5为举例
float f = 5.5f
二进制为101.1 = (-1)^0 * 1.011 * 2^2,S =0,E = 2,M = 1.011
最高位一位存放0
E = 2,2+127 = 129,将129放到E的8比特位中10000001
存M只存011,后面补0,为01100000000000000000000
所以内存中存放的是:0 10000001 01100000000000000000000
以9.0为例
float f = 9f
1001.0,科学计数法:1.0110 (-1)^0 * 1.0110*2 ^ 3 ,s = 0,e =3,m = 1.001
0 10000010 00100000000000000000000
实例2
下列代码会输出什么:
int main() { int n = 9; float *pFloat = (float *)&n; printf("n的值为:%d\n",n); printf("*pFloat的值为:%f\n",*pFloat); *pFloat = 9.0; printf("num的值为:%d\n",n); printf("*pFloat的值为:%f\n",*pFloat); return 0; }
结果:
分析:
9为int类型,所以printf("n的值为:%d\n",n);自然会输出9
然后将&n强制类型转换成了float*类型,9的二进制为00000000000000000000000000001001,此时n为浮点数类型:
0 00000000 00000000000000000001001,不难看出,内存中E全为0,所以是一个非常小的数,所以打印出来是:0.000000
*pFloat = 9.0;是将9.0存到了n中,9.0就是1001.0,也就是(-1)^0 * 1.0010 * 2^3,s=0, M=1.001,E=3+127=130,写成二进制是0 10000010 001 00000000000000000000,以int类型的形式输出就是 1091567616