一些用于回归模型的评价指标
Mean dependent var
因变量的样本均值: 目的是为了度量因变量的集中度
E(y)=(y1+y2+,...,+yn)/n
S.D dependent var因变量的样本标准差: 目的是为了度量因变量的离散度
这里不好编辑公式,省略...
?
sum squared redis残差平方和:很多最优化的方法都怡残差平方最小和作为目标函数。越小说明效果越好。
SSR=(e1^2+e2^2+...)
残差平方和会随着回归方程右边变量的增加而减少。
?
S.E regression回归标准差:显然是越小越好

其中,?T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
log likelihood和残差一样,可以作为最大似然估计的目标函数,越大越好。
检验回归方程的显著性:自变量和因变量的线性关系是否密切。给定显著水平a, 根据自由度(k,n-k-1)查F分布表,
若F>Fa,则显著,否则不显著。以上说的密切关系指的是所有自变量的联合。也就是说至少有一个变量有关,则显著。
F统计量实际上就是检验当删除所有因变量的时候,残差平方和会增加。

?其中, n表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
F检验对应的概率,越小越好。
T statistic判断回归模型右边每个属性是否与因变量关系密切。
同样T>Ta则拒绝原假设。否则该变量可以剔除。
Prob(T-Statistic)T检验对应的概率,越小越好。
R-squaredR方的取值范围位于[0,1]之间:目的是描述预测y的程度,显然是越大越好,但是也不能因为大就完全认为回归效果好,
还要结合其他的参数,因为R方的值可能因为其他非回归预测效果好的原因导致值变大。
其中,分子是残差平方和,分母约等于样本方差。
Adjusted R-squared目的是为了克服上面所说的因为其他的原因(变量个数增大)导致R方的递增。

其中,k是回归方程右边变量的个数 ,包括常数项。所以调整后的R方比R方更可靠。
Durbin-waston stat
DW统计量,用于检测误差是否序列相关,如果相关,可以通过预测误差,改进回归模型的效果。
值一般在[0, 4]之间,越接近2,说明不含自相关。
?
AICAIC准则用于预测模型的选择,越小越好

其中,?T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
SIC和AIC一样,用于预测模型的选择,同样是越小越好

其中,?T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。
?
?
?
?
reference
http://wiki.mbalib.com/wiki/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95
?
http://books.google.com.hk/books?id=ItjdbUQ3hCYC&pg=PA20&lpg=PA20&dq=%E5%9B%9E%E5%BD%92%E6%A0%87%E5%87%86%E5%B7%AE&source=bl&ots=g-N_02ZW9w&sig=WxyBj1H5ZuCtK5Cbt38-8cFk9K4&hl=zh-CN&ei=0MjdTvL5Ks_wrQfx4uCFCQ&sa=X&oi=book_result&ct=result&resnum=8&ved=0CF0Q6AEwBzgU#v=onepage&q=%E5%9B%9E%E5%BD%92%E6%A0%87%E5%87%86%E5%B7%AE&f=false
?
?
?