除一个因素之后,都要重新进行回归系数的检验。
4.4 带定性变量的线性回归预测模型
以前所研究的回归预测验方法都有一个共同的特点,这就是影响系统发展变化的因素都可用明确的数量指标描述,如劳动量、材料消耗、产值等。
但实际问题中,除了这类问题之外,还有些不能定量或不能准确定量的因素,如季节、气候等。这些因素虽然难以定量描述,但却可以清楚地分级,如季节可分为春、夏、秋、冬,气候可分好、坏,性别可分男、女等。我们把这类因素叫定性因素。
在分析系统变化规律时,有时定性因素比定量因素对系统的影响还显著,如季节因素对建筑施工的影响就很大,在研究建筑系统时,不考虑这些因素,就不能正确地反映系统变化的规律。因此在进行系统预测时,必须同时考虑定量因素和定性因素。
用以前所述的回归方法分析带定性因素的预测是很困难的。随着数理统计理论的发展,出现了一门专门研究这类问题的方法和理论——数量化理论。研究带定性变量的线性回归问题是数量化理论的一个组成部分,本节简要地介绍处理这类问题的基本理论和方法,深入细致的内容请参阅有关数量化理论的专著。
4.4.1 基本概念
(1) 基准变量 数量化理论把多元分析中的因变量称为基准变量。 (2) 说明变量 数量化理论把多元分析中的自变量叫做说明变量。
(3) 项目和类目 说明变量中的定性变量叫项目,定性变量的分级叫类目。如影响建筑业的生产的因素中季节性是定性变量,叫做项目,而把它分成的春、夏、秋、冬四季称为四个类目。
(4) 反应 第i个样本的第j个项目值叫反应,记为?i(j,k),且
?i(j,k)???1?0当第i样本取第j项目的第k类目时当第i样本不取第j项目的第k类目时
(5) 反应表 将所占有的资料经整理排列后所得到的表格 叫反应表。
(6) 反应矩阵 把反应表中的反应?i(j,k)写成矩阵形式,所得矩阵X???i(j,k)?叫反应矩阵。
反应表一般形式见表4.4.1。
表4.4.1 1 反 应 表 2 ? m 112?n 2?r1 12?r2 ? ? ? ? 12?rm ?1(1,1)?1(1,2)??1(1,r1)?2(1,1)?2(1,2)??2(1,r1)?n(1,1)?n(1,2)??n(1,r1) ?1(2,1)?1(2,2)??1(2,r2)?2(2,1)?2(2,2)??2(2,r2)?n(2,1)?n(2,2)??n(2,r2) ?1(m,1)?1(m,2)??1(m,rm)?2(m,1)?2(m,2)??2(m,rm)?n(m,1)?n(m,2)??n(m,rm) ? 反应矩阵的一般形式为: ??1(1,1)?1(1,2)??(1,r1)??1(m,1)?1(m,2)??1(m,rm)???(1,1)?(1,2)??(1,r)??(m,1)?(m,2)??(m,r)?2221222m?X??????????(1,1)?(1,2)??(1,r)??(m,1)?(m,1)??(m,r)??nnnnnnn?? 如对影响道路施工成本的因素进行分析,得表4.4.2。
表4.4.2 项目成本 机械化 取土距离X2 季节 施工条件 及 类目 样本 1 2 3 4 5 6 千元/m 5 5.1 7 2 8 8 施 工 比重X1 0.7 0.6 0.2 0.4 0.3 0.4 (百米) 冬X31 夏X32 好X41 中X42 差X43 3 4 6 7 3 9 5 1 1 0 0 1 1 0 0 0 1 1 0 0 1 1 0 1 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 0 1 7 9 0.5 注:路宽以20m为标准。 由反应表中可见,隶属于一个项目的反应之和为1,因此反应矩阵是奇异矩阵,可以证明,反应矩阵X的秩为:
rankX??rj?m?1j?1m式中: m ——为定性因子数。
rj ——为第j个定性因子的类目数。
4.4.2 基本方法
带定性因子的线性回归分析步骤如下: (1) 整理所占有的数据,列出反应表,得到反应矩阵。 (2) 建立模型。
设所研究的系统有m个说明变量且第j个项目有rj个类目。
数量化理论假设,基准变量Yi与各项目、类目的反应?i(j,k)之间有如下关系: (4.4.1)
式中:bjk是依赖于第j项目第k类目的待定常数,Yi、?i(j,k)是第i个样本的基准变量值和反应,ei为误差。
把上式写成矩阵形式为:
Y=XB+E (4.4.2)
式中:
j?1k?1Yi????i(j,k)?bjk?eimri
?y1??y?Y??2???????yn?; X???i(j,k)??b11???????b1r1???b?21?B??????b?2r2??b??m1??????bmr??m??;
;
?e1??e???????en??
误差平方和Q为:
Q??ei2?ETE?(Y?XB)T(Y?XB)i?1n?(YT?BTXT)(Y?XB)?YTY?BTXTY?BTXTXB?YTXB
?BTXTY?(BTXTY)T?YTXB (YTXB为数量)
TTTTTQ?YY?2BXY?BXXB
?Q?0用最小二乘法以?B确定参数B。
由矩阵微分法得正规方程:
XTXB?XTY
(4.4.3)
,且用B的一组特解作预测可反映系统变化规律。 因此采用如下解法:
删除第j项目第1类目所对应的方程(j=2,3,?m),并令bj1=0。因此共删掉m-1个方程,使新正规方程的系数矩阵成为非奇异矩阵,故可唯一地求出一组解,这组解称为正规方程组的特解,记为B0:
j?rj?(m?1)由于X是奇异矩阵,故XTX也是奇异的,其逆不存在。数量化理论证明了XTX的秩为
B=(b, b,?, b,0, b,?, b由此可得到预测方程为:
?0Y????i(j,k)bjkj?1k?1mrjT
01101201r102202r2,?,0, b
0m1,?, b
0mrm)
(4.4.4)
以上讨论为说明变量全部是定性因子的情况。如果说明变量中尚有定量因子时,把定量因子的定量数据列入反应矩阵中,按同样的方法求解正规方程,即可求得参数B。
现以表4.4.2的数据为例,说明带定性变量问题的线性回归方法。 该例中:
?0.7?0.6??0.2?X??0.4?0.3??0.4?0.5?510100?410010??601100??701001?310010??910100?501001??;
?5.0??5.1????7.0???Y??12.0??8.0???8.0???9.0???;
000110100100100?0??00??1?0??0?1??
去掉第二项目的第一类目后,按4.6.3式,正规方程为:
?0.751?0.70.60.20.40.30.40.5???5??0.641467395???0.260???1100110XTX?????0.4700011001???0.331?0100100?????0.4910001001?????0.550??1.5516.921.10.90.9??16.92412118712????2214020????1.1180302???0.972020???0.9120202??? ??1.5516.921.10.90.9??16.92412118712????2214020???02??1.11803?0.972020???0.9120202??? ?求解结果为:
?1?b1??22.86??b???312.42?????b31??26.1????????b32??28.0??b42??13.1?????b21????43? ???B=(-9.6621,0.2129,10.3231,7.6545,-0.1707, 0.0000, 5.9159)T
预测模型为:
???9.6621YX1?0.212X2?10.3231X31?7.6545X32?0.1707X42?5.9159X43
如现在道路施工中机械化比重为0.6、取土距离为400米、施工条件较差,在夏季进行作业时,其每延米施工成本的预测值应为:
???9.6621?0.6?0.212?4?10.3231?0?7.6545?1?0.1707?0?5.9159?1?8.6247 Y这样即解决了含定性因子的系统预测问题。
4.5 判别分析预测模型与综合评审
我们所研究的系统是复杂的,实践中对系统发展变化的估计有时不需要以定量的方式描述,而只需以程度来评价。如系统发展的前景好与坏等。这就是说,系统内部各因子(自变量)可以是定性的,也可以是定量的,而系统的变化规律则以定性的方式体现。判别分析就是解决这类问题的方法,它也是数量化理论研究的问题之一。
4.5.1 判别分析
4.5.1.1 二级判别分析的基本思想
当一个系统的发展变化只有两个方向的时候,根据对占有资料的分析,确定系统某状态下发展方向的方法叫二级判别。如果系统存在多种发展方向,根据对占有资料的分析,确定系统某状态下的发展方向叫多级判别。二级判别是多级判别的基础。因此现以二级判别分析为例,介绍判别分析预测的基本思想。
下面举例说明二级判别的基本思想。
x2 某房地产商准备开发一新型住宅,为确定消 费群体状况,以售价和消费水平作为分析影响销售·· · ·C0+C1X1+C2X2 ·· · 情况的因素,现把消费者购买意向按有意向和无意 · · ··· ·· · ·· ··· 向二种情况分别汇总整理,得出表4.5.1,并以·· · 消费水平为X1,价格水平为X2,做出预计销售状 · · ·· · · ·· ·· ·· 况散点图见图4.5.1。 表4.5.1 图4.5.1 销售状况散点图 有 组别 A1 消费水平X1(月收入) A)X1(,1 价格水平X2(元/m2) (A)X2,1 意 A2 X(A)X(A)1,2 2,2 向 ? ? ? An1 X(A)1,n1 X(A)2,n2 B无 1 X(B)1,1 X(B)2,1 意 B2 X(B)1,2 X(B)2,2 ? ? ? 向 Bn2 X(B)1,n1 X(B)2,n2 从散点图看,有意向组和无意向组基本可用一条直线L:C0+C1X1+C2X2将其分成两部分,位于上方的点基本是有意向点,位于直线下方的点基本上是无意向点。用数学描述,则C0+C1X1+C2X2>0或C1X1+C2X2>-C0为有意向;C0+C1X1+C2X2<0或C1X1+C2X2<-C0为无意向。
如果能求出这条直线方程即可解决该产品在X1、X2的各种水平下的预计销售状况,也就是说C1X1+C2X2可作为判别X1、X2为不同水平时是有意向还是无意向的函数,-C0是判别的准则。
Y=C1X1+C2X2
(4.5.1) 称之为判别函数。
Y0=C0 (4.5.2)
称之为判据。
如果通过对占有数据的分析,确定出C0、C1、C2的值,则对于给定的X1和X2,就可求出Y0,当Y>Y0时,可判给定水平为有意向,否则判为无意向。这就解决了所提出的问题,预测了系统的发展。
由上述可见,判别预测的关键就是根据什么原则处理所占有的资料和如何求出C0、C1
和C2。
4.5.1.2 最优判别准则、判别函数和判据的确定
因为影响系统发展方向的因素很多,为了判别系统的发展方向,就必须拟定一个综合评价指标,也就是借助于它把各因素统一起来。
设影响系统的因素有P个,则对系统的综合评价指标可表示为:
Y=C1X1+C2X2+?+CpXp (4.5.2)
现把系统发展变化的方向分为二组,一组称为A组,一组称为B组,A组的综合评价指标以Y(A)表示,B组的综合评价指标以Y(B)表示。现有属A组的数据n1组,属B组的数据n2组(见表4.5.2)。故各组的综合评价指标分别为:
表4.5.2 组 别 序 号 X1 X2 ? Xp 1 X(A)X(A)1,1 2,1 ? X(A)p,1 X(A)1,2A组 2 X(A)2,2 ? X(A)p,2 ? ? ? ? ? (An1 X)1,n1 X(A)2,n1 ? X(A)p,n1 X(B)1,1X(B)B)2,1B组 1 ? X(p,1 (B2 X)1,2 X(B)2,2? X(B) p,2
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库系统工程常用预测方法和模型(5)在线全文阅读。
相关推荐: