读书人

关于float,double的精密度丢失

发布时间: 2012-12-19 14:13:14 作者: rapoo

关于float,double的精度丢失

1.疑惑

由于对float或double?的使用不当,可能会出现精度丢失的问题。问题大概情况可以通过如下代码理解:

?

public class FloatDouble {/**功能:打印float和double浮点数十进制和二进制表示 * @author mike * @param args */public static void main(String[] args) {double d = 20014999;  long l = Double.doubleToLongBits(d);  System.out.println("Double:"+"十进制:"+d+",二进制:"+Long.toBinaryString(l));  float f = 20014999;  int i = Float.floatToIntBits(f);  System.out.println("Float:"+"十进制:"+f+",二进制:"+Integer.toBinaryString(i)); }}


打印结果


Double:十进制:2.0014999E7,二进制:100000101110011000101100111100101110000000000000000000000000000
Float:十进制:2.0015E7,二进制:1001011100110001011001111001100


从输出结果可以看出double?可以正确的表示20014999?,而float?没有办法表示20014999?,得到的只是一个近似值。这样的结果很让人讶异。20014999?这么小的数字在float下没办法表示。于是带着这个问 题,做了一次关于float和double学习,做个简单分享,希望有助于大家对java?浮 点数的理解。

?

2.分析


关于?java??float??double

Java?语言支持两种基本的浮点类型:?float?和?double?。java?的浮点类型都依据?IEEE 754?标准。

IEEE 754?定义了32?位和?64?位浮点数使用二进制表示标准。

维基百科:http://zh.wikipedia.org/wiki/IEEE_754


浮点数在c/c++以及java中的内存布局遵循IEEE标准的,首先看一下IEEE所规定的存储的方式:

符号位指数位小数部分指数偏移量单精度浮点数1 位[31]8位 [30-23]23位 [22-00]127双精度浮点数1 位[63]11 位[62-52]52 位[51-00]1023


? ? ?解释一下,首先float变量按上述标准是4个字节,其中最高位为符号位,1代表此浮点数为负数,0代表正数,接下来的8位为指数位,范围0~255,,IEEE规定了一个偏移量127,指数位的值减去127为小数的偏移。低23位为小数部分,这23位是来描述浮点数的值,偏移为0的情况下,这23位数是一个浮点数的小数部分,也就是说位于小数点的右边。

? ?IEEE 754?用科学记数法以底数为?2?的小数来表示浮点数。32?位浮点数用?1?位表示数字的符号,用?8?位来表示指数,用?23?位来表示尾数,即小数部分。作为有符号整数的指数可以有正负之分。小数部分用二进制(底数?2)小数来表示。对于64?位双精度浮点数,用?1?位表示数字的符号,用?11?位表示指数,52?位表示尾数。如下两个图来表示:

float(32位):

关于float,double的精密度丢失

double(64位):

关于float,double的精密度丢失

都是分为三个部分:

(1)符号位:?一 个单独的符号位s?直接编码符号s?。

(2)幂指数(指数位):k?位 的幂指数E?,移 码表示?。

(3)小数位(尾数位):n?位 的小数,原码表示?。

那么?20014999?为什么用?float?没有办法正确表示?

结合float和double的表示方法,通过分析?20014999?的二进制表示就可以知道答案了。

以下是?20014999?在?double?和?float?下的二进制表示方式。


Double:100000101110011000101100111100101110000000000000000000000000000
Float:1001011100110001011001111001100


对于输出结果分析如下。对于?double?的二进制左边补上符号位?0?刚好可以得到?64?位的二进制数。根据double的表示法,分为符号数、幂指数和尾数三个部分如下:

0?10000010111?0011000101100111100101110000000000000000000000000000

对于?float?左边补上符 号位?0?刚好可以得到?32?位的二进制数。?根据float的表示法,?也分为?符号数、幂指数和尾数三个部分如下?:

0?10010111?00110001011001111001100

绿色部分是符号位,红色部分是幂指数,蓝色部分是尾数。

对比可以得出:符号位都是?0?,幂指数为移码表示,两者刚好也相等。唯一不同的是尾数。

在?double?的尾数 为:?001100010110011110010111?0000000000000000000000000000?,省略后面的零,至少需要24位才能正确表示?。

而在?float?下面尾数 为:?00110001011001111001100?,共?23?位。

为什么会这样?原因很明显,因为?float尾数?最多只能表示?23?位,所以?24?位的?001100010110011110010111?在?float?下面经过四舍五入变成了?23?位的?00110001011001111001100?。所以?20014999?在?float?下面变成了?20015000?。
也就是说?20014999?虽然是在float的表示范围之内,但?在?IEEE 754?的?float?表示法精度长度没有办法表示出?20014999,而只能通过四舍五入得到一个近似值。

double?的尾数 为:?001100010110011110010111加1后舍弃最后一位,就变成?float?尾数 为:?00110001011001111001100


3.引申:

?

(1)十进制转二进制:

?

? ? ?用2辗转相除至结果为1 将余数和最后的1从下向上倒序写 就是结果

? ? ?例如

? ? ?302302/2 = 151 余0

? ? ?151/2 = 75 余1

75/2 = 37 余1

37/2 = 18 余1

18/2 = 9 余0

9/2 = 4 余1

4/2 = 2 余0

2/2 = 1 余0

故二进制为100101110

?

(2)十进制转二进制,小数部分

?

小数乘以2,取整,小数部分继续乘以2,取整,得到小数部分0为止,将整数顺序排列。

例如

0.8125x2=1.625 取整1

小数部分是0.6250.625x2=1.25 取整1

小数部分是0.250.25x2=0.5 取整0

小数部分是0.50.5x2=1.0 取整1

小数部分是0

结束所以0.8125的二进制是0.1101

?

(3)二进制转十进制

?

从最后一位开始算,依次列为第0、1、2...位第n位的数(0或1)乘以2的n次方得到的结果相加就是答案

例如:

01101011.

转十进制:

第0位:1乘2的0次方=1

1乘2的1次方=2

0乘2的2次方=0

1乘2的3次方=8

0乘2的4次方=0

1乘2的5次方=32

1乘2的6次方=64

0乘2的7次方=0

然后:1+2+0 +8+0+32+64+0=107.

二进制01101011=十进制107.

(4)浮点数转化成二进制?

已知:double类型38414.4。

求:其对应的二进制表示。

分析:double类型共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位:?
最高位63位是符号位,1表示该数为负,0表示该数为正;??62-52位,一共11位是指数位;?51-0位,一共52位是尾数位。?


步骤:

按照IEEE浮点数表示法,下面先把38414.4转换为二制数。?


把整数部和小数部分开处理:整数部直接化二进制进制:1001011000001110?。

?

小数的处理:?
0.4*2=0.8 取0

0.8*2=1.6 取1

0.6*2=1.2 取1

0.2*2=0.4 取0

0.4*2=0.8 取0

..............
实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。

隐藏位技术:最高位的1不写入内存(最终保留下来的还是52位)。?
如果你够耐心,手工算到53位那么因该是:38414.4(10)=1001011000001110.0110011001100110011001100110011001100(2)

科学记数法为:1.001011000001110 0110011001100110011001100110011001100,右移了15位,所以指数为15。

或者可以如下理解:

1.001011000001110 0110011001100110011001100110011001100×2^15?

于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038。二进制表示为:100 00001110;?符号位:因为38414.4为正对应 为0;?合在一起(注:尾数二进制最高位的1不要):?

01000000 11100010 11000001 110 01100? 11001100? 11001100? 11001100? 11001100



4.总结:

?

浮点运算很少是精确的,只要是超过精度能表示的范围就会产生误差。往往产生误差不是 因为数的大小,而是因为数的精度。因此,产生的结果接近但不等于想要的结果。尤其在使用?float?和?double?作精确运 算的时候要特别小心。
可以考虑采用一些替代方案来实现。如通过?String?结合?BigDecimal?或 者通过使用?long?类型来转换。

?

读书人网 >编程

热点推荐