77范文网 - 专业文章范例文档资料分享平台

多元统计分析第十章 属性数据的统计分析

来源:网络收集 时间:2020-04-16 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

第10章 属性数据的统计分析

10.1列联表的独立性分析

10.1.1实例

列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。

例10.1 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。

表10-1 商场调查数据

年龄段(岁) ≤30 31~50 >51 总和 商场1 80 91 41 212 商场2 70 86 38 194 商场3 45 15 10 70 总和 195 192 89 476 那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。

例10.2 下表给出了一个假设的某大学毕业生的专业M(文科、理工科),性别G及毕业后工作的收入I(高、低)为变量的三维列联表,结果如表10-2所示。

表10-2 大学毕业生调查牙刷

专业(M) 性别(G) 男 女 男 女 收入(I) 低 120 180 80 20 高 80 120 320 80 文科 理工科 则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。

10.1.2 定性变量与列联表

对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用A,B,C表示定性变量,用Ai,Bj,Ck表示相应的水平。假设有n个随机实验的结果按照两个变量A和B分类,A取值为A1,A2,?Ar,B取值为B1,B2,?Bs,将变量A和B的各种情况的组合用一张r?s列联表表示,称r?s列联表,如表8-3所示。其中nij表示A取Ai及B取Bj的频数。

s??ni?1j?1rsij?n,其中:

ni.??nij,i?1,2,?r,表示各行之和

j?1 1

n.j??nij,j?1,2,?,s,表示各列之和i?1srn..??n.j??ni.j?1i?1r

表10-3 变量频数表

B A B1 B2 ? Bs 总和 A1? Ar总和 n11? nr1n.1 n12?nr2n.2 ?? ?? n1s? nrsn.s n1.? nr.n.. 类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表示方式,则需要一个三维立体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。

10.1.3 二维r?s列联表的独立性检验

二维r?s列联表的两个变量A和B可视为离散型随机变量,取值分别A1,A2,?Ar和B1,B2,?Bs,以pij表示A取Ai及B取Bj的概率,通常称为格子概率,以pi.,p.j分别表示A和B的边缘概率。则对于二维r?s列联表,变量A和B的联合及边缘分布列如表10-4所示。

表10-4 变量联合及边缘分布列 B A B1 B2 ? Bs 总和 A1? Ar总和 其中

p11?pr1 p12?pr2 ?? ?? p1s? prsp1.? pr.1 p.1 p.2 p.s pi.??pij,i?1,2,?,r;j?1sp.j??pij,j?1,2,?,s.

i?1r这时检验变量A和B是否独立等价于检验假设

H0:pij?pi.p.j对一切1?i?r及1?j?s成立,H1:上式中至少对某组i,j不成立。如果H0为真,则在n次观测中事件{A?Ai,B?Bj}发生的理论频数为

2

npij?npi.p.j,i?1,2,?,r;j?1,2,?s.

当n较大时,理论频数npi.p.j与表10-3中相应的观测频数nij的差异对i?1,2,?r,j?1,2,?s均不应很大,为此,我们用

Q2???i?1j?1rs(nij?npi.p.j)2npi.p.j (10.1)

来描述理论频数与相应的观测频数的总差异量。当H0为真时,Q2的值应较小,所以,当Q2的值显著偏大时,就拒绝H0,也就是认为A和B不独立。

但是在实际中,由于pi.,p.j均未知,则我们采用相应的观测概率

n?i.?i.,pn?.j?pn.jn

分别作为概率pi.和p.j的估计(i?1,2,?,r;j?1,2,?,s)。这样,将概率pi.和p.j的估计代入(10.1),则可以得到Pearson?统计量:

2Q???2i?1j?1rs(nnij?ni.n.j)2ni.n.j (10. 2)

理论上可以证明,当H0为真时,Q2渐近服从自由度为(r?1)(s?1)的?2分布,一般的要求

ni.n.jn?5,即每个单

2元格的频数不少于5。如果Pearson?值过大,或p值很小,则拒绝原假设,认为行变量和列变量存在关联。这

种关联并没有指出两变量之间的相关或其他特殊的关系,所以称为一般关联。

例10.3(续例10.1)根据例题10.1所给的数据以及所表示的列联表,为了探讨两个变量之间的关系,不妨给出原假设:这两个变量是相互独立的。我们只要将表格中相应的频数代入到式子(10.2),则就可以得到相应的Q2222值,利用Q渐近服从自由度为(r?1)(s?1)的?分布,就可以根据?分布表查出是否在水平?下拒绝原假设,我们看看如何利用SAS语言来解决这样的问题。

为了得到不同年龄段的顾客与他们先去哪一个商场这样两个变量之间的关系,则我们可以利用SAS语言中关于列联表检验的语言PROC FREQ来求出Pearson?值,则如下所示:

data client; do i=1 to 3; do j=1 to 3; input f@@; output;

2 3

end; end; cards; 80 70 45 91 86 15 41 38 10 ; run;

proc freq; weight f;

tables i*j/chisq; run;

其中用i=1,2,3分别表示顾客的年龄段为≤30,31--50,>51;用j=1,2,3分别表示顾客首先去的商场为商场1,商场2,商场3。则运行程序可以得到下面的结果:

TABLE OF I BY J

I J

Frequency? Percent ? Row Pct ?

Col Pct ? 1 ? 2 ? 3 ? Total ?????????????????????????????????????

1 ? 80 ? 70 ? 45 ? 195 ? 16.81 ? 14.71 ? 9.45 ? 40.97 ? 41.03 ? 35.90 ? 23.08 ? ? 37.74 ? 36.08 ? 64.29 ? ?????????????????????????????????????

2 ? 91 ? 86 ? 15 ? 192 ? 19.12 ? 18.07 ? 3.15 ? 40.34 ? 47.40 ? 44.79 ? 7.81 ? ? 42.92 ? 44.33 ? 21.43 ? ?????????????????????????????????????

3 ? 41 ? 38 ? 10 ? 89 ? 8.61 ? 7.98 ? 2.10 ? 18.70 ? 46.07 ? 42.70 ? 11.24 ? ? 19.34 ? 19.59 ? 14.29 ? ?????????????????????????????????????

Total 212 194 70 476 44.54 40.76 14.71 100.00

STATISTICS FOR TABLE OF I BY J

4

Statistic DF Value Prob ?????????????????????????????????????????????????????? Chi-Square 4 19.142 0.001 Likelihood Ratio Chi-Square 4 19.142 0.001 Mantel-Haenszel Chi-Square 1 5.808 0.016 Phi Coefficient 0.201 Contingency Coefficient 0.197 Cramer's V 0.142

Sample Size = 476

上面的结果分为两个部分,第一部分左上角分别是指:频数(Frequency),百分比(Percent),行百分比(Row Pct)和列百分比(Col Pct)。第二部分给出了Pearson?2检验的结果:我们可以看到Pearson?2的值为19.1425,自由度为4,p值为0.0007小于0.05,所以可以拒绝不同年龄段的顾客与他们先去哪个商场相互独立的原假设,即认为它们是相关的。

下面我们再看一个例题来加深一下印象。

例10.4 为研究血型与肝病之间的关系,对295名肝病患者及638名非肝病患者(对照组)调查不同血型的得病情况,如表10-5所示,问肝病与血型之间是否存在关联?

表10-5 血型与肝病调查数据表

血型 O A B AB 合计 肝炎 98 67 13 18 196 肝硬化 38 41 8 12 99 对照 289 262 57 30 638 2合计 425 370 78 60 933 本例中行和列都是分类变量,不妨给出原假设肝病与血型之间是相互独立的,即它们之间不存在关联,则可以利用列联表的独立性检验来判断原假设是否正确,为了得到Pearson?值,可如下得到:

data blood; do i=1 to 4; do j=1 to 3; input f@@; output; end; end; cards; 98 38 289 67 41 262 13 8 57 18 12 30 ; run;

proc freq; weight f;

5

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库多元统计分析第十章 属性数据的统计分析在线全文阅读。

多元统计分析第十章 属性数据的统计分析.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/975855.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: