第八章 相关与回归分析
统计方法的一个重要目的是探讨事物的数量规律,那么,统计方法怎样探讨规律?对这个过程或机制的一个简单解释是:通过对性质不同的事物的大量观察,发现某些表面关系不大的事物之间存在着一定的依存关系,事物之间不是“独立”的,这使人们发现了一些“模式”,比如,人们发现,菜肴如果比较“咸”,就不容易变质,这个模式甚至成为许多人长期保持食物的方法。本章将介绍初步的探索统计规律的方法。要求:
1.掌握相关系数的含义、计算方法和应用
2.掌握一元线性回归的基本原理和参数的最小二乘估计方法 3.掌握回归方程的显著性检验 4.利用回归方程进行预测
4.掌握多元线性回归分析的基本方法 5.了解可化为线性回归的曲线回归 6.用 Excel 进行回归分析
第一节 变量间的相关及其度量
一、相关关系的概念 “事物是普遍联系的”,这种联系在我们看起来或明或暗,或显或隐,运用统计方法的一个意图就是试图从数量上测度事物之间的“联系及其程度”
用统计学的眼光看,事物无非变量,因此,我们可以把事物间的关系视为变量间的关系。为了讨论的简明,我们暂时设定数量联系发生在两个事物或两个变量之间,此关系的紧密程度就是统计学要发现和度量的对象。
这种关系有一个极端的情况是一个变量的变化完全能够决定另一个变量的变化。例如,一瓶矿泉水2元钱,我们每多买一瓶,就要多花2元钱,把购买量(瓶)记为x,花费金额记为y,则y=2x。其他的类似情况很多,其基本特点是:知道了一个变量的变化程度,就能够确定另一个变量的变化程度,这就是函数关系。
然而,现实世界中还有许多情况是两事物之间存在着联系,但其方式不是“决定”,比如,一般地看,一个人的身高越高,他的体重也“应该”越大,但我们会发现很多1.69米高的人比1.70米高的人重;又如,居民收入越高,储蓄额也会越大,但我们确实见过收入下降但储蓄额却上升的情况。类似的情况很多:我们认识到存在着一定的规律,但这种规律是有弹性的,至少是会出现“意外”的,所以,这是一种非确定性关系。由于众多现象所形成的复杂性和我们认识的局限性,或者由于试验误差、测量误差等偶然因素,使得一个变量的变化,另一个变量可以取若干个随机的数值。统计学中把这种现象之间在数量上非确定性的对应关系叫做“相关关系”或“统计关系”。
因此,我们把相关看作是现象或变量之间的数量关联。 1、完全确定的关联——函数关系 2、部分确定的关联 统计关系 3、完全不确定的关联 从以上的分析看,探讨现象之间的相关关系,可能是探讨事物内在确定性的
一种捷径,至少也是能够指出探索方向的重要信息,而且许多现象也证实了这种机制。
比如,天花是一种毁坏性很强的传染病,但有人发现,牧场里挤牛奶的姑娘几乎从来不染天花,经过多次的“试-错”活动,牛痘诞生了,天花不再肆虐,以至于现在,天花病毒在某些范围内成为濒临灭绝的需要保护的生物物种;
再如风湿性关节炎,是一种顽疾,但人们发现养蜂人几乎不患关节炎,与产生牛痘的艰难过程相似,治疗关节炎的“蜂毒”出现了。
加拿大的一个科学家(Dr.Peter Yu)猜测:严重暴力犯是否在生理结构上就与正常人有区别?他研究了监狱内几十名严重暴力罪犯的血样,发现其中一种叫做MAO的物质只相当于正常人的1/3,而且暴力犯罪越严重,MAO含量越低。西班牙的一位科学家对斗牛士进行了相似的试验,也得到相似的结果。加拿大的这位科学家同样也对一些胆子很小、“不惜一切避免任何风险”的人进行了相似的试验,发现MAO含量偏高,他就着手研制一种药,能够降低某些胆小的人血液中的MAO含量,以使他们能与普通人同样低生活。这是一种现象:暴力倾向强的人,同时血液中MAO的含量也低,相反,胆子小的人,MAO含量高。人们会很自然地猜测——MAO是否决定了一个人的暴力倾向?
诸如此类的情况,都存在这样的过程:人们发现了某种现象的变化经常都会引起另一现象的变化,这可以被视为不太明确的规律,人们为了验证、利用这些规律,会进一步试验,筛选出最主要的变量,再进行理论论证,直至形成一种比较稳定的、可控的操作模式。这个过程用统计术语来表述,就是:通过大量观察,发现了某两个变量之间的相关关系,再对这两个变量的一系列观测值进行有效的统计技术处理(下面将要介绍的回归分析方法是主要的手段),形成具有一定概率的统计规律。如何验证或解释统计规律则是统计方法以外的事业,前述三个事例都属于生物学、生理学领域。经济现象中的“恩格尔定律”也有类似的情形。
二、相关关系的种类
感知某种事物的存在,人们很自然地就要去理解、解释这种事物。现象间存在着相关关系,这些“关系”成为认识的对象,我们不禁要问:这些关系是怎样的?从科学方法的角度看,对我们的研究对象进行适当的分类是必要的。
现象间的相关关系可以有多种分类。
1、 按相关的方向不同可以分为正相关和负相关 2、 按相关的形式不同可以分为线性相关和非线性相关
当一个变量的变化幅度与另一个变量的变化幅度基本上是等比例时,这种相关关系就是线性相关。“线性”一此来源于函数图象,一元一次方程的图象是直线,线性相关就是两个变量在平面直角坐标系上所描绘出的系列点基本呈直线。线性相关之外的相关关系都属于非线性相关,因为这些关系需要使用曲线方程来刻划和表达。
3、 按影响因素的数量不同分为单相关、复相关和偏相关
两个变量的相关关系称为单相关;三个或三个以上变量的相关关系称为复相关;在三个及三个以上的相关变量中,若只反映其中两个变量的相关关系(假定其他变量不变),就称为偏相关。
4、 按照变量关联的密切程度可分为完全相关、不完全相关和完全不相关(无关)
习惯上所说的相关一般指的是介于完全相关和完全无关之间的“不完全相
关”
第二节 简单线性相关分析
一、相关分析的基本思想
例如,某公司10个企业的销售收入和销售利润的资料如下:
表5-1 企业销售收入与销售利润相关表 单位:万元
企业编号 1 2 3 4 5 6 7 8 9 10
1、 相关图
相关图也称散点图,是在平面直角坐标系中,以横轴表示变量X,以纵轴表示变量Y,将相关表中对应的资料数值在图上标出坐标点所形成的图形,图中的坐标点会显示一定的相关关系。通过相关图可以大致看出两个变量之间有没有关系,是什么样的关系(正相关或负相关),相关的密切程度如何。将表5-1中的资料绘制成相关图,能较直观地看出两个变量间的线性关系。
76543210010203040销售收入(万元)506070销售收入X1 10 20 24 30 30 40 50 56 60 60 销售利润X2 1.8 2.0 2.4 3.5 4.4 5.0 5.0 5.6 6.0 6.4 销售利润(万元)图5-1 企业销售收入与销售利润相关图
二、相关系数
相关表和相关图都只能让我们了解现象之间相关关系的粗略情况,还不能进
行“量化”,为了更有效、更具普适性地表示现象之间相关关系的密切程度,还需要计算相关系数。
相关系数是用于测定两个变量之间线性相关程度和相关方向的统计分析指标,用字母r表示。
相关系数从原理上说,可根据两个变量与其算术平均数的离差乘积来计算,这种计算方法称为“积差法”,是计算相关系数的基本方法。其计算公式为:
1 _ _
--- Σ(x - x)( y - y) σxy n
r = ---------------------------------------- = ---------- (5.1)
_______________ ________________
/ 1 _ / 1 _ σxσy 22 / ---Σ( x – x ) / --- Σ( y – y ) √ n √ n
式中:n表示相关变量的项数;
σxy代表两个变量离差乘积的平均数,也称为变量x与y的协方差; 其他符号的意义同前 上式可用文字表述为:
变量x与y的协方差 相关系数 = ------------------------------- (5.2)
变量x的标准差·变量y的标准差
式(5.1)还可作如下简化:
_ _ Σ(x - x)( y - y) r = ---------------------------------------- (5.3)
_______________ ________________ / _ / _ / Σ( x – x )2 / Σ( y – y )2 √ √
或
nΣxy - ΣxΣy r = ---------------------------------------- (5.4)
_______________ ________________ / /
/ nΣx2 – (Σx)2 / nΣy2 – (Σy)2 √ √
相关系数的积差法公式表明,在直线相关条件下,协方差σxy为正值时,相关系数也为正值,表示正相关;σxy为负值时,相关系数也为负值,表示负相关;σxy为零时,相关系数为0,表示两个变量不相关。相关系数的变动范围在-1到+1之间,即|r|≤1,|r|的大小表示相关程度的高低。
习惯上——而不是严格意义上,我们还可以根据相关系数的值把相关关系的强度赋予一定的“名称”,即相关系数的绝对值|r|在:
0.3以下,称为微弱线性相关; 0.3—0.5,称为低度线性相关; 0.5—0.8,称为显著线性相关; 0.8以上,称为高度线性相关。
如果计算相关系数时,使用的数据量较小,容易受偶然现象的影响,相关系
数的可信度就比较低,这时需要对相关系数进行检验,检验样本相关系数r对总体相关系数ρ的代表性。
三、等级相关(Rank Correlation)
等级相关的全称是斯皮尔曼(Spearman)等级相关。等级相关也是一种直线相关分析。它是将数量特征值按等级次序排列,再测定数量等级之间的相关程度的一种方法,故又称为顺位相关或秩相关。根据等级相关法计算出来的相关指标叫做等级相关系数或斯皮尔曼系数。
在测定时,首先是将数值编号号码,然后顺次求两个变量每对符号等级的差量d,即:
d = x等级 - y等级 (5.5)
等级相关系数用ρ表示,其计算公式为: 6Σd2 ρ= 1 - ----------- (5.6)
n(n2 - 1) 式中:n代表等级的项数
Σd2代表所有差量平方之和
ρ的取值范围为[-1,+1]。若x、y等级次序完全相同时,Σd2=0,ρ=1,则x、y完全正相关;若x、y等级次序完全颠倒,ρ= -1,则x、y完全负相关。若-1<ρ<1,则x、y非完全直线相关。
设有甲乙二组售货员对13种女皮鞋的式样进行评价,评分情况如下:
表5-4 售货员对女皮鞋的评价分数 皮鞋编号 甲组 1 2 3 4 5 6 7 8 9 10 11 12 13 82 87 84 92 78 72 76 66 68 80 75 87 86 乙组 76 83 83 80 74 72 86 69 74 72 70 76 76 这种打分并不是客观的,也不精确,但可据此决定事物的等级或顺序。将评分改为等级的办法是:最低分定为1等,最高分本例定为13等。遇有相同分数时取原有等级的平均数。例如,甲组有两个87分,原来等级为11、12,其平均数为11.5,即作为这两个分数的等级;乙组有三个76分,原来等级为7、8、9,其平均数为8,即作为这三个分数的等级。计算等级相关系数的资料如下:
表5-5 评价分数计算表 等级差 甲组评乙组评甲组等级乙组等级编号 d = d2 分 分 x y x–y 1 82 76 8 8 0 0 2 87 83 11.5 11.5 0 0 3 84 83 9 11.5 -2.5 6.25 4 92 80 13 10 3 9 5 78 74 6 5.5 0.5 0.25 6 72 72 3 3.5 -0.5 0.25 7 76 86 5 13 -8 64
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库第八章 相关与回归分析在线全文阅读。
相关推荐: