关于统计学中方差公式的问题
我们现在课本上所提供的方差的计算方式,这个分母是除以N,有一些统计学书中,方差的一个计算公式分母是除以的N-1。
一般计算器上,两个公式都有。为什么会有这样的差异,这两个公式哪个对,哪个错,还是都有道理?
我们先看一个例子。现在有10000个灯泡,那么它有一个方差,这个方差是一个总体方差。如果我们抽了这个总体中的1000个灯泡去计算方差,并且用它去估计总体的那个方差,如果要除以N的话呢,在理论上可以证明,用除以N的来估计总体,它的估计是偏低的,也就是说我们算出来的样本方差比总体方差要低。要除以N-1的话,就不偏低,所以除以N-1好,这是理论上的问题。
我们用一个数据来估计总体时,要有一个标准,就是说估计得好还是不好。比如说要估计这个总体方差,用谁来来估计。用第一个公式算出来的样本方差是估计,用第二个公式算出来的样本方差也是估计,都是估计,好还是不好,首先就要看你给出一个什么叫好,什么叫不好的标准,如果你认为它偏低或者偏高都不好的话,那么标准就是要估计得无偏,就是说认为无偏估计是好,理论上已经证明了除以N-1就要比除以N要好;当然还可以有别的标准,比如说靠得越近就好,这时除以N就好,这在统计学中称为极大似然估计。因此标准不一样,好坏也就不一样。
教材里选用N,还有一个就是比较自然,顾及到学生的可接受性,因为N个数求算术平均数时除以的是N,再学习计算方差的公式,除以N接受起来比较自然,比较方便。要除以N-1的话,我们还需要给学生解释,或者是介绍更多的内容去理解为什么要减去这个1。老师们可以根据自己学生的能力水平,是否去介绍这种新的公式。而且当这个数很大的话,比如除以10000跟除以9999,得到的那个数据结果,差异很小很小。所以,当N很大时,两个都可以。当然N很小时,除以N-1,还是除以N还是有差异的,但这不是一个什么太本质的问题。
也可以这样来理解:
计算样本方差时先要对均值X作一个估计,占用了一个自由度。也就是说,用剩下的任意n-1个数据与X放在一起就可以计算方差,即只有n-1个自由度。但为了计算简便,还是把n个数据都放进了公式,但并没有增加自由度,所以只能除以n-1。
将几个样本的方差合并为总体方差估计时,比如一个样本的大小是m,方差为S1,另一个样本大小是n,方差为S2,对总体方差的无偏估计是[(m-1)S1+(n-1)S2]/(m+n-2),合并时的分母是(m-1)+(n-1)=m+n-2而不是m+n-1,这是按自由度的算法。
无偏性可通过样本大小为1的极端情形来考察,这一个数据是对均值的估计,但计算方差时没有自由度了,实际上就不能估计方差,公式退化成0/0型,没有意义才是真的有意义,如果除以1,则方差估计值为0,反而不如0/0能反映真实含义。