√ n – 2
根据前述资料,可利用式(5.16)计算估计标准误差:
_________________________________________________ / 15747.54 – 80.22×396.2 -(-0.1264)×126920.1
Sy = / ------------------------------------------------ = 0.941 √ 10 – 2
该结果与前种方法所得结果的误差是计算中舍入所致,可忽略不计。 估计标准误差的作用,一方面用来衡量回归模型的拟合优度(有效程度),另一方面用来对实际的值y落到估计值y周围的区间做出一个大概的说明。如同抽样推断中的抽样平均误差一样,如果样本数据点围绕回归模型服从正态分布,那么,实际的y值落在估计值y加减一个Sy范围内,有68.27%的可靠性,实际值y落在估计值y加减2个Sy范围内,有95.45%的可靠性,实际值y落在估计值y加减3个Sy范围内,有99.73%的可靠性。
四、可化为线性回归的非线线回归
无论是自然现象还是社会现象,现象间的关系不都是线性关系,而且许多关系在一段时间内表现出线性特征,在更长的时间内,可能又表现为非线性特征;也有些关系在较短时间内表现为非线性特征,而在长期内又表现为线性特征。对于非线性关系,需要使用相应的模型来拟合,非线性模型一般都比较复杂,但有些非线性模型可以化为线性模型。
1、 指数
(5.16) 两边同时取对数 ln y = lnα+βx 令y’=ln y, 则 y’ (5.17) 2、 幂函
(5.18) 两边同时取对数 ln y =lnα+βln x 令y’=ln y, x’=ln x, 则
数
y
=
α
x
β
β
x
函数y = αe
= lnα+βx
y’= lnα+βx’
(5.19)
x 3、 双曲函
(5.20)
αx+β 令y’=1/y, x’=1/x, 则 y’=(5.21) 4、 对数
(5.22) 令x’=ln x, 则 y
=
α
函
数α
数 y = ------
+βx’
y =α+βln x
+βx’
(5.23)
1 5、 逻辑斯蒂曲
(5.24)
α+βe-x 令y’=1/y, x’=e-x, 则 y’=(5.25)
α
线 y = ------------
+βx
第四节 多元线性回归分析
“事物是普遍联系的”,因为有“联系”,使我们可以探索它,不至于一无所知、逆来顺受;因为“普遍”,又使我们对“联系”的探索举步维艰,一个现象的变化,往往找不到一个直接因素,经常都是在很多因素的影响下,一件事物变化了。复杂的现象常常具有多方面的联系,涉及多个变量之间的数量关系。在许多实际问题中,某个因变量常随着多个自变量的变动而作相应的数量变化,对于这类问题的处理应采用多元回归分析方法。
多元回归分析是研究一个因变量与多个自变量之间相关关系的统计分析方法。由于多元回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系和相互作用,因此被广泛地应用于科学研究和实验数据的分析当中,成为使用非常广泛的统计方法。例如,产品产量不但受劳动时间影响,而且还受技术水平、工人劳动能力、年龄、性别和设备的生产效率等因素的影响。对
这类问题,就可以采用多元回归分析的方法来加以研究。本节简要介绍多元线性回归分析的方法。
多元线性回归分析实际上可以视为一元线性回归分析方法的拓展,其基本原理与一元线性回归分析的原理相似,但在计算上要复杂得多。
一、多元线性回归模型
设影响因变量y的主要因素有k个:x1,x2,x3,??xk,则可以建立如下多元线性回归模型:
y (5.26)
每个自变量的系数表示,当其他自变量都固定,该自变量变动1个单位时,y的平均变动量。如b1表示当x2??xk固定时,x1每变动一个单位而引起y的平均变动量。b2 表示当x1,x3??xk 固定时,x2 每变动一个单位而引起y的平均变动量,等等。也可以这样理解:每个自变量的系数是一种权数,它表示每个自变量的变化对因变量总变化各自的贡献程度。
多元线性回归分析是建立在简单线性回归所使用的假设和方法的基础之上的,对于式(5.27)中自变量的k个系数,均可采用最小平方法原则求得,下面以二元回归分析为例来介绍多元回归模型的分析方法。
二元回归分析就是只分析两个自变量对因变量的影响,其回归模型为: y (5.27)
式中的三个自变量系数由下列三个方程式确定: nb0 + b1∑x1 + b2∑x2 = ∑y b0
(5.28)
b0∑x2 + b1∑x1x2 + b2∑x22 = ∑x2y
现以表5-10的资料为例,拟合二元回归模型(假设自变量之间没有较强的线性关系)。
表5-10 某地区空调销售量、销售加工及年人均收入资料 年销售销售价年人均计算栏 ∑
x1
+
b1
∑
x12
+
b2
∑
x1x2
=
∑
=
b0
+
b1x1
+
=
b0
+
b1x1
+
b2x2
+
?
?
+
bkxk
b2x2
x1y
份 量(万台) y 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 合计 格 (千元/台) x1 收入(千元) x2 x12 x22 x1y x2y x1x2 1.5 1.7 2.0 2.3 2.5 2.7 2.9 3.1 3.3 3.5 3.0 3.1 3.2 3.5 3.6 3.5 3.6 3.7 3.7 4.0 0.8 1.0 1.2 1.5 1.8 2.3 2.5 2.9 3.3 3.8 9.00 9.61 10.24 12.25 12.96 12.25 12.96 13.69 13.69 16.00 0.64 1.00 1.44 2.25 3.24 5.29 6.25 8.41 10.89 14.44 4.50 5.27 6.40 8.05 9.00 9.45 10.44 11.47 12.21 14.00 1.20 1.70 2.40 3.45 4.50 6.21 7.25 8.99 10.89 13.30 2.40 3.10 3.84 5.25 6.48 8.05 9.00 10.73 12.21 15.20 25.5 34.9 21.1 122.65 53.85 90.79 59.89 79.26 将表5-10中的资料代入上式得: 10b0 + 34.9b1 + 21.1b2 = 25.5 34.9b0 + 122.65b1 + 79.26b2 = 90.79 21.16b0 + 79.26b1 + 53.85b2 = 59.89 解得: b0 = -0.481 b1 = 0.744 b2 = 0.206
将结果代入式(5.28)得二元回归模型: y0 = -0.481 + 0.744x1 + 0.206x2
二、多元回归的估计标准误差
与一元回归分析相同,估计本身是随机的,因此也就存在着误差,为了衡量这种误差的一般程度,也需要计算估计标准误差。
多元回归估计标准误差的计算公式为: ________________ / ∑( y – y )2
Sy = / (5.29)
√ n – (k + 1)
式中,(k+1)为自由度
----------------
式(5.29)可有简捷计算公式:
___________________________________________ / ∑y2 – b0∑y – b1∑x1y –b2∑x2y - - bk∑xky
Sy = / ------------------------------------------- (5.30)
√ n – (k+1)
例如,对于二元回归模型,就有
__________________________________ / ∑y2 – b0∑y – b1∑x1y – b2∑x2y
Sy = / ---------------------------------- (5.31)
√ n – (2+1)
将表5-10资料和自变量系数数值代入式(5.31),就可得空调销售量回归的估计标准误差。
______________________________________________________ / 69.13 –(-0.481)×25.5 –0.744×90.79 – 0.206×59.89
Sy = /------------------------------------------------------- = 0.2158(万台)
√ 10 – 3
结果表明。若用回归模型y0 = -0.481 + 0.744x1 + 0.206x2估计因变量的数值,则平均离差为0.2158万台。
三、相关分析与回归分析的比较
1、相关分析与回归分析都只对样本数据负责。一般地看,想要了解现象间的关系,只能用一对变量的若干观察值或样本值进行相关分析与回归分析,所使用的分析方法是有理论依据的,但数字资料本身却各有不同,观察范围越广,采样越密集,得到的分析结果也会越准确。如果变量的变化范围发生改变,或变量本身的性质发生变化,原有分析结果就不再具有原来的代表性,需要重新建立回归模型。
2、计算相关系数时,两个变量不必区分自变量和因变量,但在回归分析时,必须区分自变量和因变量(对于一元回归而言,自变量与因变量的位置互换,相当于原来的反函数)。从统计学的数学性质来讲,我们可以不去考虑所研究事物
的性质,只从它们的数量关系上分析其数量规律,这时,我们没有理由把某一个变量一定要确定为自变量。但统计方法的运用都针对的是实际问题,对统计关系的定量不能代替我们对事物的理解。为了使统计方法的使用更有效,应该从事物的性质出发,尽量合理地确定自变量和因变量,至少不能对事物因果关系的存在视而不见。当然,这个工作——确定谁是自变量,谁是因变量——需要对该领域有一定程度的了解,从这个意义上说,统计方法要想发挥较大的作用,离不开对分析对象的本质认识;对客观事物的深入分析,也要熟练运用统计方法,以使分析更准确,对规律的表述更清晰。
3、相关系数表示的是变量之间关系的紧密程度,回归分析能反映变量之间的相互影响关系和数量规律性。运用回归模型,可以对现象进行一定的预测,主要包括内插法和外推法,内插法可以推测自变量变化范围以内的因变量结果,外推法可以推测自变量变化范围以外的因变量结果,相对而言,内插法预测的结果会准确一些,而外插法预测的准确程度要低一些,尤其是自变量的取值远离拟合模型时的数据时,准确程度更要降低。
4、对“发现”机制的一种解释。相关与回归方法的运用,有助于发现某些客观机制。我们总是在对大量的事物进行观察,并且时时都渴望着发现某个规律。一个人突然发现,P和Q两个事物间存在着一定的依存关系(如前述牛痘与天花、蜂毒与关节炎),但这离规律还差很远,为了明确、清晰地表述这个规律,他需要一系列的特定观测,并对观测值进行大量的统计分析,形成科学的认识。
这一过程用统计术语来描述,就是:大量观察,获得统计数据—→发现相关性—→寻找特定的数据或设计一个试验以获得必要的数据—→准确描述相关性(建立回归模型)—→对回归模型进行检验—→调整回归模型—→探讨变量之间的内在决定性(这一步工作在统计学领域之外)。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库第八章 相关与回归分析(3)在线全文阅读。
相关推荐: