应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版

编辑点评:应用多元统计分析高惠璇pdf

本书为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,而且还详举了非常多的实例,读者可以看的一目了然,感兴趣的欢迎下载学习

应用多元统计分析高惠璇pdf

编辑推荐

本书为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的应用实例,同时还以国际上著名的统计分析软件SAs系统作为典型工具,

通过实例介绍如何处理数据分析中的各种实际问题。本书可作为综合大学、工科大学或高等师范学院数学系、应用数学系、经济学等相关专业的本科生或研究生教材或教学参考书;对于其他领域中从事应用统计的工作人员也是一本极好的学习参考书。

相关内容部分预览

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(1)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(2)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(3)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(4)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(5)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(6)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(7)

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(8)

内容简介

《普通高等教育"十一五"*规划教材·北京大学数学教学系列丛书·本科生数学基础课教材:应用多元统计分析》主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的实例,

同时还以国际上著名的统计分析软件SAS系统作为典型工具,通过实例介绍如何处理数据分析中的各种实际问题。

作者简介

高惠璇,北京大学数学科学学院教授。1965年毕业于北京大学数学力学系。长期从事概率论与数理统计的教学、科研工作,主要研究方向是统计计算、

统计软件与应用多元统计方法,曾参加过国家教委《数学软件的研究与开发》项目和统计软件的开发及推广普及工作。

书籍章节介绍

《应用多元统计分析》共分十一章。第一章为绪论;第二、第三章介绍多元统计分析的理论基础——多元正态分布及其参数的估计和检验问题;第四章重点介绍多因变量的多元线性回归的有关问题,

包括模型、参数的估计及其性质、假设检验、变量筛选,以及双重筛选逐步回归问题;第五、第六章介绍分类问题(判别与聚类);第七到第九章介绍降维的多变量方法(主成分分析、因子分析和对应分析方法);

第十章讨论两组相关变量的典型相关分析;第十一章介绍近年来发展的偏最小二乘回归分析方法;并且在每一章内都配有适量的习题。“附录”中介绍了本课程所需的矩阵代数的有关内容;书末附有“部分习题参考解答或提示”,这些都将更便于读者自学。

《应用多元统计分析》可作为综合大学、工科大学或高等师范学院数学系、应用数学系、经济学等相关专业的本科生或研究生教材或教学参考书;对于其他领域中从事应用统计的工作人员也是一本极好的学习参考书。

什么是应用多元统计分析

应用多元统计分析

基础数据:N个样本,P个变量数的单样本,组成的横列的数据表

变量定性:分类和顺序;变量定量:数值

数学公式的角度分为:因变量与自变量

不同类型的变量都有最高计算等级的限制:分类变量【只能判断真假,是否】,顺序变量【只能计算大小】,数值【加减等运算】

数据的本身的变化方向分为两种【升级变化,一变多】,【降级变化,多变一】

升级需要对数据进行编码:提高计算等级,但信息可能扭曲

降级需要对数据进行分组:降低计算等级,但信息可能减少

自变量之间关系的分析:聚类分析,主成分分析和因子分析

自变量与因变量之间关系的分析:

多元数据的描述统计【数据选择恰当图形】

图:环形图,矩阵散点图,轮廓图,雷达图,闪电图,调和曲线图,切尔谢夫脸谱图

描述统计量:均值向量,方差和协方差矩阵,相关系数矩阵

什么是主成分分析?

主成分的概念由Karl Pearson在1901年提出

考察多个变量间相关性一种多元统计方法

研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关

主成分分析的目的:数据的压缩;数据的解释

常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释

主成分分析的基本思想 (以两个变量为例)

对这两个相关变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理

假定只有两个变量x1和x2,从散点图可见两个变量存在相关关系,这意味着两个变量提供的信息有重叠

如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维的过程

降维图

图解:

椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小

如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而 短轴变量只携带了一小部分变化的信息(变异)

此时,只需要用长轴方向的变量就可以代表原来两个变量的信息。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大,降维也就越合理

多维变量的情形类似,只不过是一个高维椭球,无法直观地观察

每个变量都有一个坐标轴,所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了

找出的这些新变量是原来变量的线性组合,叫做主成分

主成分分析的数学模型:

数学上的处理是将原始的p个变量作线性组合,作为新的变量

设p个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为

公式

选择几个主成分?选择标准是什么?

选择标准是什么?:

被选的主成分所代表的主轴的长度之和占了主轴总程度之和的大部分

在统计上,主成分所代表的原始变量的信息用其方差来表示。因此,所选择的第一个主成分是所有主成分中的方差最大者,即Var(yi)最大

如果第一个主成分不足以代表原来的个变量,在考虑选择第二个主成分,依次类推

这些主成分互不相关,且方差递减

选择几个主成分?

一般要求所选主成分的方差总和占全部方差的80%以上就可以了。当然,这只是一个大体标准,具体选择几个要看实际情况

如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一些,如果原来的变量之间本身就不怎么相关,降维的效果自然就不好

不相关的变量就只能自己代表自己了

根据什么选择主成分?

特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息

特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率

设特征根为λ,则第i个主成分的方差贡献率为: [公式]

1根据主成分贡献率

一般来说,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分

2根据特特征根的大小

一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大

3spss绘制碎石图根据拐点确定主成分

怎样解释主成分?【载荷图,载荷矩阵,线性组合表达式】

主成分分析的步骤:(总结如上步骤)

对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响

根据标准化后的数据矩阵求出相关系数矩阵

求出协方差矩阵的特征根和特征向量

确定主成分,并对各主成分所包含的信息给予适当的解释

什么是因子分析?【简述主成分分析与因子分析的异同】

由Charles Spearman于1904年首次提出的

与主成分分析类似,它们都是要找出少数几个新的变量来代替原始变量

不同之处:主成分分析中的主成分个数与原始变量个数是一样的,即有几个变量就有几个主成分,只不过最后我们确定了少数几个主成分而已。而因子分析则需要事先确定要找几个成分,也称为因子(factor),然后将原始变量综合为少数的几个因子,以再现原始变量与因子之间的关系,一般来说,因子的个数会远远少于原始变量的个数

因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更深入、更细致一些。实际上,主成分分析可以看作是因子分析的一个特例

通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始变量的绝大部分信息,然后根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低

属于多元统计中处理降维的一种统计方法,其目的就是要减少变量的个数,用少数因子代表多个原始变量

因变量和因子个数的不一致,使得不仅在数学模型上,而且在实际求解过程中,因子分析和主成分分析都有着一定的区别,计算上因子分析更为复杂

因子分析可能存在的一个优点是:在对主成分和原始变量之间的关系进行描述时,如果主成分的直观意义比较模糊不易解释,主成分分析没有更好的改进方法;因子分析则额外提供了“因子旋转(factor rotation)”这样一个步骤,可以使分析结果尽可能达到易于解释且更为合理的目的

因子分析的数学模型:

(共同度量Communality和公因子的方差贡献率 )

因子分析的步骤:

1,数据检验

因子分析要求样本的个数要足够多

一般要求样本的个数至少是变量的5倍以上。同时,样本总数据量理论要求应该在100以上

用于因子分析的变量必须是相关的

如果原始变量都是独立的,意味着每个变量的作用都是不可替代的,则无法降维

检验方法

计算各变量之间的相关矩阵,观察各相关系数。若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析

使用Kaiser-Meyer-Olkin检验(简称KMO检验)和 Bartlett球度检验(Bartlett’s test of sphericity)来判断(SPSS将两种检验统称为“KMO and Bartlett’s test of sphericity”)

Bartlett球度检验

以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素不为0,非对角线元素均为0)。如果相关矩阵是单位阵,则各变量是独立的,无法进行因子分析

KMO检验

用于检验变量间的偏相关性,KMO统计量的取值在0~1之间

如果统计量取值越接近1,变量间的偏相关性越强,因子分析的效果就越好

KMO统计量在0.7以上时,因子分析效果较好;KMO统计量在0.5以下时,因子分析效果很差

2,因子提取

Principal components(主成分法):多数情况下可以使用该方法(这也是SPSS的默认选项)。通过主成分分析的思想提取公因子,它假设变量是因子的线性组合

Unweight Least Square(不加权最小平方法):该方法使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小

Generalized Least Square(加权最小平方法):用变量值进行加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小

Maximum Likelihood(最大似然法):该方法不要求数据服从正态分布,在样本量较大时使用较好

Principal Axis Factoring(主轴因子法):该方法从原始变量的相关性出发,使得变量间的相关程度尽可能地被公因子解释

因子数量的确定

用公因子方差贡献率提取:与主成分分析类似,一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子

用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因子的解释力度太弱,还不如使用原始变量的解释力度大

实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验

3,因子命名

因子命名是因子分析重要一步

一个因子包含了多个原始变量的信息,它究竟反映了原始变量的哪些共同信息?

因子分析得到的因子的含义是模糊的,需要重新命名,以便对研究的问题作出合理解释

可通过考察观察因子载荷矩阵并结合实际问题完成

命名已经不是统计问题。它需要研究者自身的专业素质和对实际问题背景的了解程度,这需要更多的实践经验

观察因子载荷矩阵

如果因子载荷aij的绝对值在第i行的多个列上都有较大的取值(通常大于0.5),表明原始变量与多个因子都有较大的相关关系,意味着原始变量xi需要由多个因子来共同解释

如果因子载荷aij的绝对值在第j列的多个行上都有较大的取值,则表因子fi能共同解释许多变量的信息,而对每个原始变量只能解释其中的少部分信息,表明因子不能有效代表任何一个原始变量,因子的含义模糊不清,难以对因子给出一个合理的解释

需要进行因子旋转,以便得到更加合理的解释

4,因子命名—旋转

因子旋转(factor rotation)的目的是使因子的含义更加清楚,以便于对因子的命名和解释

旋转的方法有正交旋转和斜交旋转两种

正交旋转是指坐标轴始终保持垂直90度旋转,这样新生成的因子仍可保持不相关

斜交旋转坐标轴的夹角可以是任意的,因此新生成的因子不能保证不相关。因此实际应用中更多地使用正交旋转

SPSS提供5种旋转方法,其中最常用的是Varimax(方差最大正交旋转)法

Varimax(方差最大正交旋转):最常用的旋转方法。使各因子保持正交状态,但尽量使各因子的方法达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释

Quartimax(四次方最大正交旋转):该方法倾向于减少和每个变量有关的因子数,从而简化对原变量的解释

Equamax(平方最大正交旋转):该方法介于方差最大正交旋转和四次方最大正交旋转之间

Direct Oblimin(斜交旋转):该方法需要事先指定一个因子映像的自相关范围

Promax:该方法在方差最大正交旋转的基础上进行斜交旋转

5,计算因子得分

因子得分(factor score)是每个因子在每个样本上的具体取值,它由因子得分函数给出

几点说明:

主成分分析和因子分析都是多元分析中处理降维的两种统计方法。只有当原始数据中的变量之间具有较强的相关关系时,降维的效果才会明显,否则不适合进行主成分分析和因子分析

主成分和因子的选择标准应结合具体问题而定。在某种程度上取决于研究者的知识和经验,而不是方法本身

即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析时,仍然要保持谨慎,因为主成分和因子毕竟是高度抽象的量,无论如何,它们的含义都不如原始变量清晰

因子分析可以看作是主成分分析的推广和扩展,而主成分分析则可以看作是因子分析的一个特例。目前因子分析在实际中被广泛应用,而主成分分析通常只作为大型统计分析的中间步骤,几乎不再单独使用

什么是方差分析(ANOVA)?

[参考统计学基于R语言]

方差分析的基本原理是在20世纪20年代由英国统计学家Ronald A.Fisher在进行实验设计时为解释实验数据而首先引入的

分析各分类自变量对数值因变量影响的一种统计方法

研究分类型自变量对数值型因变量的影响

一个或多个分类型自变量

两个或多个 (k 个) 处理水平或分类

一个数值型因变量

有单因素方差分析和双因素方差分析

单因素方差分析:涉及一个分类的自变量

双因素方差分析:涉及两个分类的自变量

聚类分析

统计分类中,有的事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis)

什么是聚类分析?

把“对象”分成不同的类别

这些类不是事先给定的,而是直接根据数据的特征确定的

把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大

聚类分析就是按照对象之间的“相似”程度把对象进行分类

聚类分析有两种分类方式?:

聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量

按照变量对所观察的样本进行分类称为Q型聚类

按照多项经济指标(变量)对不同的地区(样本)进行分类

按照样本对多个变量进行分类,则称为R型聚类

按照不同地区的样本数据对多个经济变量进行分类

两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类)

聚类分析按什么分类?

按对象的“相似”程度分类

根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数

变量间的相似系数越大,说明它们越相近

根据变量来测度样本之间的相似程度则使用“距离”

把离得比较近的归为一类,而离得比较远的放在不同的类

相似性的度量(样本点间距离的计算方法):

在对样本进行分类时,度量样本之间的相似性使用点间距离

点间距离的计算方法主要有

欧氏距离(Euclidean distance)

平方欧氏距离(Squared Euclidean distance)

Block距离(Block distance)

Chebychev距离(Chebychev distance)

明氏距离(Minkovski distance)

最常用的是平方欧氏距离

层次聚类:

层次聚类又称系统聚类

事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类

根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反

层次聚类的合并法:

将每一个样本作为一类,如果是k个样本就分k成类

按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了k-1个类别

再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止

总是先把离得最近的两个类进行合并

合并越晚的类,距离越远

事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果

层次聚类的分解法:

分解方法原理与合并法相反

先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象)

再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止

类间距离的计算方法:

在层次聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题

计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果

实际中较常用的是离差平方和法(Ward’s method),又称Ward法

K-均值聚类?

层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究者根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高

K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高,

也被称为快速聚类(quick cluster)

K-均值聚类的步骤【简述k-means聚类的基本步骤】?

第1步:确定要分的类别数目K

需要研究者自己确定

在实际应用中,往往需要研究者根据实际问题反复尝试,得到不同的分类并进行比较,得出最后要分的类别数量

第2步:确定K个类别的初始聚类中心

要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心

与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑

使用SPSS进行聚类时,也可以由系统自动指定初始聚类中心

第3步:根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的距离欧氏距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中

第4步:根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类

第5步:重复第4步,直到满足终止聚类条件为止

迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次)

新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02)

K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验

聚类分析的注意事项:

除分层聚类法和K-均值聚类法外,还有很多新的聚类方法,例如;两步聚类法 (TwoStep Cluster)(SPSS提供了该聚类方法的程序),谱聚类法,密度聚类法等。

无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定

聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,可能会得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已

使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验

从数据要求上看

参与分类的变量首先应符合要求

各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,尔后再进行聚类)

各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱

注意对分类结果的检验

分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较

一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些

判别分析:【简述判别分析和聚类分析分析的不同之处】

假设早先依据训练样本的信息得到了某种隐含的标准,那么就可以据此标准对待判样品进行判别:将待判样品归到不同的“类”中。

和聚类分析的不同之处在于判别分析知道训练样本的类别,属于监督学习,而聚类则不知道任何样本类别,属于非监督学习。

这种判别本质上是一种预测行为,所不同的是预测依据的是公式化的模型,判别依据的是非公式化的隐含关系(训练样品的分类结果与其判别变量值之间的对应关系)。

判别的方法:距离判别 ,Bayes判别,Fisher判别,

含定性变量的回归模型 :

1 因变量是定性变量的回归模型

2 Logistic(逻辑斯蒂)回归

3 多类别Logistic回归

4 因变量是顺序变量的回归

多元回归模型:

一个因变量与两个及两个以上自变量的回归

描述因变量 y 如何依赖于自变量 x1 , x3 ,…, xk 和误差项 ε 的方程,称为多元回归模型

涉及 k 个自变量的多元线性回归模型可表示为:

多元回归模型

β0 ,β1,β3 ,?,βk是参数

ε 是被称为误差项的随机变量

y 是x1,,x3 ,? ,xk 的线性函数加上误差项ε

ε 包含在y里面但不能被k个自变量的线性关系所解释的变异性

多元回归模型的基本假定:

正态性。误差项ε是一个服从正态分布的随机变量,且期望值为0,即ε~N(0,σ2)

方差齐性。对于自变量x1,x3,…,xk的所有值,ε 的方差σ 2都相同

独立性。对于自变量x1,x3,…,xk的一组特定值,它所对应的ε与任意一组其他值所对应的不相关

估计的多元线性回归的方程:

用样本统计量 估计回归方程中的 参数 时得到的方程

由最小二乘法求得【公式求解可借助计算机】

拟合优度和显著性检验:

1,多重判定系数(修正多重判断系数)

回归平方和占总平方和的比例

因变量取值的变差中,能被估计的多元回归方程所解释的比例

2,多重相关系数

3,估计标准误差

多重共线性

什么是重共线性?

回归模型中两个或两个以上的自变量彼此相关

多重共线性带来的问题?

可能会使回归的结果造成混乱,甚至会把分析引入歧途

可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反

多重共线性的识别?

检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验

若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性

3.如果出现下列情况,暗示存在多重共线性

模型中各对自变量之间显著相关

当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著

回归系数的正负号与预期的相反

容忍度(tolerance)与方差扩大因子(variance inflation factor,VIF)。

某个自变量的容忍度等于1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型的判定系数,即1-Ri2。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性

方差扩大因子等于容忍度的倒数,即 。显然,VIF越大多重共线性就越严重。一般要求VIF小于5,也可放宽到小于2。如果大于10则认为存在严重的多重共线性。

多重共线性的处理?

1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关

2.如果要在模型中保留所有的自变量,则应避免根据 t 统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内

在建立回归模型时,对自变量进行筛选

选择自变量的原则是对统计量进行显著性检验

将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型

确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量

变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等

应用多元统计分析高惠璇pdf截图

应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(9)应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(10)应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(11)应用多元统计分析pdf免费下载-应用多元统计分析高惠璇pdf完整版插图(12)

评分及评论

无用户评分

来评个分数吧

  • 5 分
    0
  • 4 分
    0
  • 3 分
    0
  • 2 分
    0
  • 1 分
    0

Comments