电话:0731-83595998
导航

多元统计分析方法检验体系的构建

来源: 2018-09-04 12:32

 摘要:为了更好地应用多元统计分析方法,论文提出建立多元统计分析方法统计检验体系的基本框架,包括多元统计分析方法统计检验基础理论,主成分分析统计检验体系,因子分析统计检验体系、聚类分析统计检验体系、判别分析统计检验体系、对应分析统计检验体系、典型相关分析统计检验体系。论文最后还提出了应用多元统计分析方法时应注意的其他共性问题。 
中国论文网 /2/view-13220030.htm
  关键词:多元统计分析;假设检验 
  中图分类号:F222.1 文献标识码:A 文章编号:1000―2154(2009)02―0076―05 
   
  一、构建多元统计分析方法检验体系的必要性 
   
  (一)构建多元统计分析方法检验体系,提高多元统计分析应用质量 
  多元统计分析方法已经越来越为人们广泛应用,但应用中盲目套用分析方法的情况很多,只关心模型方法的应用,而对各种多元统计分析方法的适用性以及应用效果的统计检验重视不够。许多教科书也只侧重介绍多元统计分析方法的思想、原理和分析步骤,对多元统计分析方法应用结果的统计检验叙述不多。这就直接影响了多元统计分析方法的应用效果和可信性。因此,本文拟对多元统计分析方法的统计检验问题进行探讨,并试图建立各种多元统计方法的统计检验体系。构建多元统计分析方法检验体系的目的在于,理论上,进一步丰富和完善多元统计分析方法的内容体系;实践上,使多元统计分析方法的应用更加合理、规范,推动多元统计分析方法应用质量的提高,推动多元统计分析方法获得更广泛的应用。 
   
  (二)回归分析方法的统计检验体系给出重要启示 
  回归分析是目前应用最多也是应用最成功的统计分析方法之一。回归分析方法在应用中所获得的成功与回归分析内容体系中其丰富的统计检验体系是分不开的。仅就多元线性回归分析中就包括:总体模型参数的检验,样本方程拟合效果的检验,可决系数检验,D.W检验等等。至于在时间序列分析中有关回归分析的检验内容就更丰富了,如纯随机性检验、单位根检验、协整检验等。这些统计检验问题就构成了回归分析方法的统计检验体系,为回归分析方法的广泛应用提供了很好的支撑。比较而言,我们对主成分分析、因子分析、聚类分析、典型相关分析等多元统计分析方法应用中的统计检验内容就匮乏很多。但是,在回归分析应用中进行各种统计检验的做法和思想对我们建立多元统计分析方法检验体系提供了重要的启示。 
   
  (三)多元统计检验体系的理论基础是具备的 
  事实上,对多元统计分析方法进行检验的理论基础是具备的。多元统计分析方法统计检验的理论基础是关于多元正态分布的总体均值向量检验以及协差阵检验。常用的样本分布有维希特(Wishart)分布,霍特林(Hotelling)T2分布以及威尔克斯(Wilks)分布。检验的具体内容包括:正态总体均值向量假设检验(一个正态总体均值向量假设检验,两个正态总体均值向量假设检验,多个正态总体均值向量假设检验),正态总体协方差阵检验(一个正态总体协方差阵假设检验,多个协差阵相等假设检验)等等,上述检验理论,已经构成了多元统计分析方法统计检验的基础理论。现在的问题是,如何在这些理论的基础上在具体的多元统计分析方法中得到进一步的实施和运用。我们所缺少的是,对多元统计分析方法进行统计检验的意识,以及对多元统计分析方法进行检验的具体内容和方法。 
   
  (四)目前国内外许多统计书籍或软件中已经给出了一些具体的检验内容但缺乏系统性 
  目前,有关多元统计方法统计检验问题的研究零散地分布在教科书中或有关统计软件应用说明中,但系统的研究还不多。例如,对主成分分析方法统计检验,张尧庭、方开泰介绍了巴特莱特球性检验对主成分适用性进行检验。Richard A Johnson、Dean w Wichern、陈峰则介绍了源于多元正态总体协方差阵检验理论,用似然比统计量推导出的等相关性检验对主成分分析方法的适用性进行检验。SPSS、SNSS等软件则介绍了相关系数矩阵的直观检验、KMO检验、ψ检验和碎石图的直观检验等方法,对主成分分析、因子分析的适用性进行统计检验。又如,对典型相关分析,张尧庭、方开泰、于秀林、高惠璇等介绍了典型相关系数的显著性检验,即典型相关系数的整体性检验,及每对典型变量相关系数的检验,即维度递减检验。而郭志刚介绍了典型相关系数的整体性检验的同时,还介绍了其他近似统计量检验法,如威尔克斯统计量、皮莱(Pillai)迹统计量、劳雷-霍特林(Hotelling--Lawley)迹统计量和罗伊(Roy)最大特征根统计量等。另外,在很多常用的统计软件中如SAS、SPSS等,也都介绍了具体的多元统计分析方法检验的内容。上述研究都为我们进一步的研究提供了基础。我们所需要做的工作是,加强多元统计分析方法统计检验的意识和具体化各种多元统计分析方法检验的内容、方法和步骤,以便推动多元统计分析方法更好的运用。 
   
  二、多元统计分析检验体系的基本框架的构建 
   
  基于上述考虑,围绕着对多元统计分析方法统计检验这一基本目标,按照进行哪些统计检验?检验怎样的假设?如何进行这些检验?应构建怎样的统计检验体系等基本问题,在借鉴国内外已有研究的基础上,进行总结、探讨并建立统计检验体系。具体构建如下的统计检验体系。 
   
  (一)多元统计分析统计检验体系的基础理论 
  多元正态分布总体的样本分布,即维希特(Wishart)分布,霍特林(Hotelling)T2分布,威尔克斯(Wilks)分布: 
  多元正态总体均值向量假设检验,包括一个正态总体均值向量假设检验,两个正态总体均值向量假设检验,多个正态总体均值向量假设检验; 
  多元正态总体协方差阵假设检验,包括一个正态总体协方差阵假设检验,多个协差阵相等假设检验。 
   
  (二)主成分分析统计检验体裂 
  主成分分析是否需要统计检验?总体主成分与样本主成分; 
  主成分分析适用性检验,包括巴特莱特球性检验,相关系数矩阵的直观检验,KMO检验和MSA检验,ψ检验,碎石图的直观检验; 
  等相关性检验,包括各变量间相关系数不全相等或不相等的假设检验; 
  主成分方差的假设检验和置信区间; 
  主成分个数的选取和检验,包括巴特莱特检验(主成分相等的检验),累计贡献率检验,特征值平均数法检验。 
   
  (三)因子分析统计检验体裂 
  因子分析适用性检验,包括巴特莱特球性检验,相关系数矩阵的直观检验,KMO检验和MSA检验,ψ检验,共同度h2i检验,碎石图的直观检验: 
  等相关性检验,包括各变量间相关系数不全相等或不相等的假设检验; 
  公共主因子数目的检验,包括巴特莱特检验,累计贡献率检验,特征值平均数法检验,经验判断法。 
   
  (四)Q型系统聚类分析统计检验体系 
  Q型系统聚类分析是否需要统计检验?Q型系统聚类分析的总体模型及其假设;   Q型系统聚类分析结果有效性检验,包括威尔克斯(Wilks)分布检验,近似x2分布检验或F分布检验; 
  Q型系统聚类分析类(组)数选择合理性检验,包括R2k检验,半偏R2k检验,伪F统计量,伪t2统计量; 
  聚类变量分组能力检验,包括聚类变量附加信息量检验。 
   
  (五)判别分析统计检验体系 
  判别分析适用性检验,包括判别变量之间互不相关的假设检验(可决系数和方差膨胀因子法,病态指数法),已知总体的协方差矩阵相等的假设检验; 
  判别变量服从多元正态分布的假设检验,包括x2量Q-Q图检验法,主成分检验法; 
  判别效果检验,包括均值向量相等的假设检验(两总体均值向量相等的假设检验,多个总体均值向量相等的假设检验),判别效果评价(错判概率,真实失误率和表观失误率,后验概率,错判代价); 
  判别变量判别能力假设检验,包括对判别变量在区别各个总体中是否提供附加信息进行检验,维尔克斯统计量,F统计量,广义的马哈拉诺比斯D2统计量的辅助性检验: 
  判别函数判别能力检验,包括衡量判别函数判别能力指标的计算分析。 
   
  (六)对应分析统计检验体系 
  对应分析的适用性检验,包括卡方(x2)检验(定性资料对应分析的卡方检验,连续性资料对应分析的卡方检验),其它检验统计量(似然比卡方(likelihood ratio Chi-square),检验列联系数(contingency coeffi―cient)检验,拟合优度卡方检验); 
  对应分析效果检验分析,包括对维度数目的选择分析,对惯量总和的分析,对惯量比例的分析,对奇异值(Singular Value)的分析。 
   
  (七)典型相关分析统计检验体系 
  典型相关分析适用性检验,包括原始变量组内相关性检验(原始变量组内存在一定相关性的假设检验,原始变量组内变量高度多重共线性的检验),原始变量组间线性相关性检验(近似X2的检验法,近似F的检验法,其它近似统计量检验法,即威尔克斯统计量,皮莱(Pillai)迹统计量,劳雷-霍特林(Hotelling-Lawley)迹统计量,罗伊(Roy)最大特征根统计量); 
  典型相关系数的显著性检验,包括巴特莱特大样本的X2检验,近似的F检验; 
  对典型变量代表性的检验分析,包括典型变量与原始变量的相关系数的检验分析,冗余指数的计算分析。 
   
  三、多元统计分析检验体系实施及提高 
   
  多元统计分析方法应用质量的几点讨论和建议 
   
  (一)关于统计检验体系 
  将上述统计检验体系有机结合在一起,就构成了多元统计分析方法检验体系的基本框架。为了恰当运用多元统计分析方法,充分发挥多元统计分析方法的应用价值,提高应用质量,我们建议,在应用时,应该按照上述框架进行相应的统计检验。当然,上述统计检验体系还是一个初步的框架,随着多元统计分析方法理论的逐步完善,上述检验体系也需要不断完善,也需要更多的同行关注此类问题并不断加以研究,这也是笔者写此文章的出发点和目的之一。另一方面,在实际应用中,即便是某种方法根据上述内容都进行了统计检验,由于各种方法自身存在的缺陷或局限性,也还会存在许多应用中考虑不周之处,应该引起注意。 
  例如,关于因子分析,自从其首次被Charles Spearman于1904年应用以来,尽管被广泛应用,目前在国外各学科的杂志上,每年都可以看到大量的有关因子分析方法的应用实例,但是在另一方面,国外有关因子分析应用也一直倍受争议,其中,Hills(1977)认为“没有必要花费时间去掌握和应用因子分析”,Chatfield和Collins(1980)也认为“因子分析在大多数情况下是不适用的”,Johnson和Wichem(2002)认为“因子分析方法在目前仍然是一种艺术,尚没有一种单一的策略可以获得完美的成功”。因子分析作为一种探索性分析,尽管在自然科学、社会科学研究中都有着广泛的应用领域,但是,因子分析结果还是具有较大主观性,特别是对公共主因子在专业方面实际意义的解释上,仍然保留着一种艺术气息,并没有统一做法,因此很多情况下也是不能令人满意的。总之,我们在应用时,对因子分析的适用性、公因子的估计方法、公因子选取的数目,公因子的实际意义的解释等一系列问题都要引起足够注意,反对那些机械地简单套用因子分析的做法,以便真正发挥因子分析方法的应用价值。 
   
  (二)多元统计分析方法应用中需要注意的几个共性问题 
  具体到每一种方法都有具体的需要注意的问题,其中,几个具有共性的问题是: 
  1 关于原始数据变量的总体分布问题。对原始变量的总体分布各种方法各有不同的要求。有的方法对原始数据变量总体分布没有特殊的要求,如主成分分析、聚类分析、对应分析。有的方法在不同情况下,对原始变量分布有不同的要求,如因子分析中,公共因子的估计方法不同,对原始变量分布要求不同,采用极大似然估计方法估计主因子时,是假定原始变量是服从多元正态分布的,因此,应用时要引起重视,相反其它主因子估计方法对原始数据的分布是没有限定的;判别分析中假定判别变量是服从多元正态分布的,但是在实际应用中不同判别准则对判别变量的总体分布的要求是不同的。距离判别分析、费舍判别分析一般对判别变量的总体分布都没有特殊的要求,而应用贝叶斯判别分析时,则必须要满足判别变量是服从多元正态分布。有的方法则明确要求原始变量应服从正态分布。如典型相关分析要求原始变量服从正态分布,但在严格意义上,如果变量的分布形式比如高度偏态不会降低其他变量的相关关系,典型相关分析是可以包含这种非正态变量的,有时由于多元正态性检验不一定可行,一般的准则是保证每个单变量的正态性。 
  2 样本容量问题。进行多元统计分析时,样本容量n达到多少为宜,目前尚没有统一的结论。有的认为样本容量应是变量个数的10-20倍,有的认为样本容量要在100以上比较合适,有的认为进行巴特莱特检验时的样本容量应该大于150方可,也有的认为不必苛求太多的样本容量,如在进行主成分分析和因子分析时当原始变量之间的相关性很小时,即使再扩大样本容量,也难以得到满意效果。但是应用多元统计分析方法时有一点是形成共识的,即样本容量一定要大于原始变量个数。 
  3 原始变量之间的相关性以及非线性关系问题。多元统计分析方法中,有的是的要求原始变量中要具有相关性,有的则不要求原始变量具有相关性。如聚类分析中,进行Q型系统聚类分析时对原始数据变量之间的相关性也是有要求的,如选择欧式距离、明氏距离、兰氏距离时,则要求原始变量之间是不相关的。只有对原始数据的相关性进行了处理后,才可以选择使用上述距离。若原始变量存在相关性,则选择马氏距离比较合适。再如主成分分析、因子分析中又要求原始变量中要具有一定的相关性,否则是不能进行分析的。而典型相关中要求原始变量中要具有相关性,但又不能具有高度多重共线性,否则也是不能进行分析的。 
  另外原始变量之间的非线性关系也是需要注意的问题。如主成分分析、因子分析以及典型相关分析当基于相关矩阵来进行计算时,这里的相关矩阵实际上是Pearson的积差相关,反映的是变量之间的线性相关关系,但是,如果变量之间的关系不是线性的,而是非性相关关系,这时,由于Pearson的积差相关矩阵已经无法准确表达原始变量之间的关系,于是,所进行的分析以及结论也就失去应有的意义了。 
  4 数据处理问题。多元统计分析中涉及多个变量,不同变量往往具有不同的量纲及不同的数量级别。在分析时,具有不同量纲的变量进行线性组合是没有意义的,不同的数量级别的变量之间进行分析时。会导致“以大吃小”,即数量级别小的变量的影响会被忽略,从而影响了分析结果的合理性。因此,为了消除量纲和数量级别的影响,进行多元统计分析时,必须对原始数据进行处里,最常用的是先作标准化变换处理,然后再作相应的分析。

编辑推荐:

下载Word文档

温馨提示:因考试政策、内容不断变化与调整,长理培训网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准! (责任编辑:长理培训)

网络课程 新人注册送三重礼

已有 22658 名学员学习以下课程通过考试

网友评论(共0条评论)

请自觉遵守互联网相关政策法规,评论内容只代表网友观点!

最新评论

点击加载更多评论>>

精品课程

更多
10781人学习

免费试听更多

相关推荐
图书更多+
  • 电网书籍
  • 财会书籍
  • 其它工学书籍
拼团课程更多+
  • 电气拼团课程
  • 财会拼团课程
  • 其它工学拼团
热门排行

长理培训客户端 资讯,试题,视频一手掌握

去 App Store 免费下载 iOS 客户端