java浮点型分析

xiaoxiao2021-02-27 509

问题

float func3() 　　{ 　　　　 long i= 3 ; 　　　　 return i; 　　} 是可以的,下面是别人的分析

float占4个字节为什么比long占8个字节大呢，因为底层的实现方式不同。浮点数的32位并不是简单直接表示大小，而是按照一定标准分配的。第1位，符号位，即S 接下来8位，指数域，即E。剩下23位，小数域，即M，取值范围为[1 ,2 ) 或[0 , 1) 然后按照公式： V=(-1)^s * M * 2^E 也就是说浮点数在内存中的32位不是简单地转换为十进制，而是通过公式来计算而来，通过这个公式虽然，只有4个字节，但浮点数最大值要比长整型的范围要大。研究了一下浮点小数的表示

怎么用二进制来表示小数呢？假设我们要用二进制来表示小数5.5，怎么搞？按照常规思路，首先用二进制表示一下5，是101，那5.5岂不就是101.101(呵呵哒...)。我们来看下分解过程，5=4+1，也就是1*22 + 0*21 + 1*20，即101。按照这个思路，0.101这个二进制表示的是1*2-1 + 0*2-2 + 1*2-3，也就是0.625。所以，5.5表示成二进制就可以是101.1(并不是101.101)。再明确下这个规则： 1···11.11···1 (中间的点表示小数点) 1*2k + ··· + 1*21 + 1*20 + . + 1*2-1 + 1*2-2 + 1*2-k 这种表示法也叫作定点表示法。然而，我们也会发现定点表示法的一些问题：首先，我们用定点表示法表示下0.1这个十进制小数试试看， 0.1 = 0*2-1 + 0*2-2 + 0*2-3 + 1*2-4 (0.0625) + 1*2-5 (0.03125) + 0*2-6 + 0*2-7 + 1*2-8 (0.00390625) + 0*2-9(0.001953125) + ... fuck!!!! 有编码长度限制的话，这种表示方式无法精确的表示0.1，只能随着编码长度的增加而越来越近似。其次，这种表示方法没办法有效的表示很大的数，比如5 * 2100这个数(二进制表示的话，后面100个0怎么表示，就算双精度的话也才64个bit)。 IEEE浮点表示法。上面我们看了定点表示法，也大概了解了定点表示法存在的问题： 1.不精确。2.无法有效表示大数。这一节来看一下IEEE浮点表示法，这种表示法也是系统中普遍采用的表示小数的方式。先看一下浮点表示标准形式： V = (-1)s×M×2E (可以当成一个公式来记!) V=(-1)^s*（M）*2^(E-127)（单精度） V=(-1)^s*（M）*2^(E-1023)（双精度）那具体怎么表示呢？假设是32位的话(比如Java的float、单精度)，格式如下： s e f 1 - 11111111 - 11111111111111111111111 s:1bit e:8bit f:23bit 64位的话(比如Java的double、双精度)，格式如下： s e f 1 - 11111111111 - 1111111111111111111111111111111111111111111111111111 s:1bit e:11bit f:52bit 知道了格式和公式，两者怎么对应起来呢？根据格式中e值的不同，编码会分为三种情况： 1.规格化的值：当e中所有bit的值既不全是0，又不全是1，这种情况就属于规格化的值。规格化的值下 M=1+f，f是f所包含的bit组成的二进制小数。 E=e-Bias，e是e包含的bit组成的无符号数； Bias=2^(k-1)-1 ，k是e的bit个数，比如32位下，k=8，64位下，k=11。固定127 2.非规格化的值：当e中所有bit的值全是0，这种情况就属于非规格化的值。非规格化的值下 M=f，f是f所包含的bit组成的二进制小数。 E=1-Bias，Bias=2^(k-1)-1，k是e的bit个数，比如32位下，k=8，64位下，k=11。固定1023 3.特殊值：当e中所有bit的值全是1，f中所有bit的值全是0，表示无穷大。当e中所有bit的值全是1，f中所有bit的值不全是0，表示NaN(Not a Number)。可见，IEEE浮点表示方式，虽然解决了表示大数的问题(通过公式能看出可以表示M×2E这种形式的数)，但还是没有解决精确问题。 Java中怎么表示浮点数。 Java中提供了long和double来表示单精度浮点和双精度浮点的基本类型，就是按照IEEE754规范来的。也提供了对应的包装类。我们按照上面的IEEE规则来看一下，就看看5.5这个数。首先我们用单精度来表示5.5这个数： Java代码 float f = 5.5f; 然后我们需要得到这个数二进制的格式，也就是上面IEEE格式，Float包装类中提供了floatToIntBits进行支持。 Java代码 int intBits = Float.floatToIntBits(f); 最后我们需要将这个intBits以二进制的形式打印出来看看。 Java代码 System.out.println(Integer.toBinaryString(intBits)); 输出如下： Java代码 1000000101100000000000000000000 注意这里的打印结果会将bit位中前面的0省略(把符号位给省略了)，我们补上0，然后调整成IEEE格式。 0 10000001 01100000000000000000000 注意到，这符合上面提到的规格化的值，套用一下规则： s = 0 M=1+f，M=1.375 E=e-Bias，e=129，Bias=2^(8-1)-1=127，所以E=2 V = (-1)s×M×2E = (-1)^0×1.375×2*2 = 1×1.375×4 = 5.5 结果就是5.5 对上了！！！反向转换的话要注意隐含位最后来看个特殊值的例子： Java代码 public static void main(String[] args) { int intBits1 = 0x7f800000;// 0 11111111 00000000000000000000000 float f1 = Float.intBitsToFloat(intBits1); int intBits2 = 0xff800000;// 1 11111111 00000000000000000000000 float f2 = Float.intBitsToFloat(intBits2); System.out.println("f1="+f1+",f2="+f2); int intBits3 = 0xff800001;// 1 11111111 00000000000000000000001 float nan = Float.intBitsToFloat(intBits3); System.out.println("nan="+nan); } 输出如下： Java代码 f1=Infinity,f2=-Infinity nan=NaN OK！可以自己多写几种例子来加深下印象。如果之前不了解这部分的话，可以对Java中float和double的内存布局有一点点的直观认识了。

转载请注明原文地址: https://www.6miu.com/read-1995.html

技术

最新回复(0)