您的位置：首页 > 服装鞋帽 > 女装 > 【引用】一个变量对几个变量线性回归

【引用】一个变量对几个变量线性回归

luyued 发布于 2011-06-29 04:16 浏览 N 次

关键字: linear regression

Glossary:

ls(least squares)最小二乘法

R-sequared样本决定系数（R2）：值为0-1，越接近1表示拟合越好，>0.8认为可以接受，但是R2随因变量的增多而增大，解决这个问题使用来调整

Adjust R-seqaured()

S.E of regression回归标准误差

Log likelihood对数似然比：残差越小，L值越大，越大说明模型越正确

Durbin-Watson stat：DW统计量，0-4之间

Mean dependent var因变量的均值

S.D. dependent var因变量的标准差

Akaike info criterion赤池信息量(AIC)（越小说明模型越精确）

Schwarz ctiterion:施瓦兹信息量（SC）（越小说明模型越精确）

Prob(F-statistic)相伴概率

fitted(拟合值)

线性回归的基本假设：

1.自变量之间不相关

2.随机误差相互独立，且服从期望为0，标准差为σ的正态分布

3.样本个数多于参数个数

建模方法:

ls y c x1 x2 x3 ...

x1 x2 x3的选择先做各序列之间的简单相关系数计算，选择同因变量相关系数大而自变量相关系数小的一些变量。模型的实际业务含义也有指导意义，比如m1同gdp肯定是相关的。

模型的建立是简单的，复杂的是模型的检验、评价和之后的调整、择优。

模型检验：

1）方程显著性检验（F检验）：模型拟合样本的效果，即选择的所有自变量对因变量的解释力度

F大于临界值则说明拒绝0假设。

Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p值，若p小于置信度(如0.05)则可以拒绝0假设，即认为方程显著性明显。

2）回归系数显著性检验（t检验）：检验每一个自变量的合理性

|t|大于临界值表示可拒绝系数为0的假设，即系数合理。t分布的自由度为n-p-1,n为样本数，p为系数位置

3）DW检验：检验残差序列的自相关性，检验基本假设2（随机误差相互独立）

残差：模型计算值与资料实测值之差为残差

0<=dw<=dl 残差序列正相关，du

demo中的dw=0.141430 ，dl=1.73369,du=1.7786,所以存在正相关

模型评价

目的：不同模型中择优

1）样本决定系数R-squared及修正的R-squared

R-squared=SSR/SST 表示总离差平方和中由回归方程可以解释部分的比例，比例越大说明回归方程可以解释的部分越多。

Adjust R-seqaured=1-(n-1)/(n-k)(1-R2)

2）对数似然值(Log Likelihood,简记为L)

残差越小，L越大

3）AIC准则

AIC= -2L/n+2k/n, 其中L为 log likelihood,n为样本总量，k为参数个数。

AIC可认为是反向修正的L，AIC越小说明模型越精确。

4）SC准则

SC= -2L/n + k*ln(n)/n

用法同AIC非常接近

预测forecast

root mean sequared error(RMSE)均方根误差

Mean Absolute Error(MAE)平均绝对误差

这两个变量取决于因变量的绝对值，

MAPE(Mean Abs. Percent Error)平均绝对百分误差，一般的认为MAPE<10则认为预测精度较高

Theil Inequality Coefficient（希尔不等系数）值为0-1，越小表示拟合值和真实值差异越小。

偏差率(bias Proportion)，bp，反映预测值和真实值均值间的差异

方差率(variance Proportion)，vp，反映预测值和真实值标准差的差异

协变率(covariance Proportion)，cp，反映了剩余的误差

以上三项相加等于1。

预测比较理想是bp,vp比较小，值集中在cp上。

eviews不能直接计算出预测值的置信区间，需要通过置信区间的上下限公式来计算。如何操作？

其他

1)Chow检验

chow's breakpoint检验

零假设是：两个子样本拟合的方程无显著差异。有差异则说明关系中结构发生改变

demo中

Chow Breakpoint Test: 1977Q1

F-statistic 2.95511837136742 Prob. F(3,174) 0.0339915698953355

Log likelihood ratio 8.94507926849178 Prob. Chi-Square(3) 0.0300300700620291

p值<0.05，可拒绝0假设，即认为各个因素的影响强弱发生了改变。

问题是如何才能准确的找到这个或这几个断点？目前的方法是找残差扩大超出边线的那个点，但这是不准确的，在demo中1975Q2的残差超出，但是chow's breakpoint检验的两个p值都接近0.2，1976Q3开始两个p值才小于0.05，并且有逐渐减小之势。

chow's forecast检验

用断点隔断样本，用之前的样本建立回归模型，然后用这个模型对后一段进行预测，检验这个模型对后续样本的拟合程度。

0假设是：模型与后段样本无显著差异

demo中的1976Q4作为break point,得到两个p值为0，即认为两段样本的系数应该是不同的。

2）自变量的选择

testadd检验：

操作方法是: eqation name.testadd ser1 ser2 ...

0假设：应该将该变量引入方程

检验统计量：wald,LR

结果：通过两个p值(Prob. F,Prob Chi-sequare)看是否拒绝原假设

testdrop检验：

操作方法是: eqation name.testdrop ser1 ser2 ...

0假设：应该将该变量剔除

检验统计量：wald,LR

结果：通过两个p值(Prob. F,Prob Chi-sequare)看是否拒绝原假设

含定性变量的回归模型

分为：自变量含定性变量，因变量含定性变量。后一种情况较为复杂

建立dummy 变量(名义变量)：用D表示

当变量有m种情况时，需要引入m-1个dummy变量

处理办法：把定性变量定义成0.1.2等数值后和一般变量同样处理

常见问题及对策

1）多重共线性（multicollinearity）:

p个回归变量之间存在严格或近似的线性关系

诊断方法：

1.如果模型的R-sequared很大，F检验通过，但是某些系统的t检验没通过

2.某些自变量系数之间的简单相关系数很大

3.回归系数符号与简单相关系统符号相反

以上3条发生都有理由怀疑存在多重共线性

方差扩大因子(variance inflation factor VIFj)是诊断多重共线性的常用手段。

VIFj为矩阵(X’ X)-1第j个对角元素cjj=1/(1-R2j)(j=1,2…,p)

其中R2j为以作为cj因变量，其余p-1个自变量作为自变量建立多元回归模型所得的样本决定系数，所以R2j越大则说明自变量之间自相关性越大，此时也越大，可以认为VIFj>10(R2j>0.9)则存在多重共线性。

还可以使用VIFj的平均数作为判断标准，如果avg(VIFj)远大于10则认为存在多重共线性。

eviews里如何使用VIF法？--建立方程，然后手工建立scalar vif。demo中GDP和PR的vif为66，存在多重共线性? 只有一个自变量的方程是否会失效?此时dw值只有0.01远小于dl，说明GDP远远不是PR能决定的。结合testdrop将PR去除，两个p值为0，说明不能把PR去除。

在eviews中当自变量存在严重的多重共线性时将不能给出参数估计值，而会报错：nearly singular matrix

多重共线性的处理：

1.剔除自变量，选择通过testdrop实验，并且vif值最大的那个

2.差分法，在建立方程时填入 ls m1-m1(-1) c gdp-gdp(-1) pr-pr(-1)。m1(-1)表示上一个m1

差分法常常会丢失一些信息，使用时应谨慎。 demo中得到的模型，c 的p值0.11, pr-pr(-1)的p值为0.60，说明参数无效。

2）异方差性（Herteroskedasticity）

即随机误差项不满足基本假设的同方差性,异方差性说明随机误差中有些项对因变量的影响是不同于其他项的。

一般地，截面数据做样本时出现异方差性的可能较大，或者说都存在异方差性

若存在异方差性，用OLS估计出来的参数，可能导致估计值虽然是无偏的，但不是有效的。

（截面数据就是同一时间点上各个主体的数据，比如2007年各省的GDP数据放在一起就是一组截面数据

与之相对的是时间序列数据如河北省从00年到07年的数据就是一组时间序列数据

两者综合叫面板数据）

00年到07年各省的数据综合在一起就叫面板数据

诊断方法：

1.图示法，以因变量作为横坐标，以残差项为纵坐标，根据散点图判断是否存在相关性。

(选择两个序列作为group打开，先选中的序列将作为group的纵坐标)

2.戈里瑟(Glejser)检验：

3.怀特(White)检验:

用e2作为因变量，原先的自变量及自变量的平方(还可以加上各自变量之间的相互乘积)作为自变量建立模型。

怀特检验的统计量为：m=n*R2(n是样本容量，R2是新模型的拟合优度), m~ χ2(k) k为新模型除常数项之外的自变量个数

零假设：模型不存在异方差性

操作：在估计出来的方程中，view-residual tests-White Herteroskedasticity(no cross/cross) 分别为是否含自变量交叉项

demo中的两个p值为0，所以拒绝零假设，认为存在严重的异方差性。

异方差性的处理：

1.加权最小二乘法(WLS weighted least sequare)。

最常用的方法，一般用于异方差形式可知的情况。基本思路是赋予残差的每个观测值不同的权数，从而使模型的随机误差项具有相同的方差。

2.自相关相容协方差(Heteroskedasticity and antocorrelation consistent convariances HAC)

用于异方差性形式未知时。在建模时在options中选择Heteroskedasticity consistent convariances 再从white,newey-west中选择一种。

HAC不改变参数的点估计，改变的知识估计标准差。如何改变标准差？

3）自相关性

残差项不满足相互独立的假设。一般的，经济时间序列中自相关现象较为常见，这主要是经济变量的滞后性带来的。

自相关性将导致参数估计值虽然是无偏的，但不是有效的。

诊断方法：

1.绘制残差序列图。如果序列图成锯齿形或循环状的变化，可以判定存在自相关

2.回归检验法：

以残差e(t)为被解释变量，以各种可能的相关变量，如 e(t-1) e(t-2)作为自变量，选择显著的最优拟合模型作为自相关的形式。

demo中以 ls residm1 c residm1(-1) residm1(-2)后发现c的p值为0.54，做testdrop实验，两个p值都>0.5 可以将c剔除。剔除c后：

Dependent Variable: RESIDM1

Method: Least Squares

Date: 12/29/07 Time: 11:26

Sample (adjusted): 1952Q3 1996Q4

Included observations: 178 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

RESIDM1(-1) 1.215361 0.077011 15.78173 0.0000

RESIDM1(-2) -0.271664 0.078272 -3.470763 0.0007

R-squared 0.868569 Mean dependent var 0.011855

Adjusted R-squared 0.867823 S.D. dependent var 26.91138

S.E. of regression 9.783961 Akaike info criterion 7.410538

Sum squared resid 16847.76 Schwarz criterion 7.446289

Log likelihood -657.5379 Durbin-Watson stat 2.057531

模型的r-sequared稍小，参数很显著，dw显示为无自相关。

但是常数c能剔除吗？剔除后模型没有f-statistic和对应p值，原理何在？

3.DW检验法

用于小样本的一阶自相关情况，缺点：当回归方程右边存在因变量的滞后项如m1(t-i) (i=1,2,...)时，检验失败。

解决办法：

1.差分法

用增量数据代替原来的样本数据，较好的克服了自相关，但是改变了原方程的形式，意义不大。

2.Cochrane-Orcutt迭代法

不能有常数项!验证了回归检验的中的做法。

建立新方程时，e同e(-1) e(-2) 相关，有两个系数如何处理？

--《数据分析与EVIEWS应用》读书笔记

上一篇：主流web容器(jettytomcatjboss)的classloader机制对比和相关问题分析下一篇：[转载]美式整脊疗法介绍（转）

首页

T恤

衬衫

缝纫

服装辅料

婚纱

夹克

裤子

领带

您的位置：首页 > 服装鞋帽 > 女装 > 【引用】一个变量对几个变量线性回归

【引用】一个变量对几个变量线性回归