本章為MOOC《多元統(tǒng)計分析與R語言建?!氛n程的第4章,內(nèi)容明顯比前兩章多多了。
4.1變量間的關(guān)系分析
變量間的關(guān)系及分析方法

兩變量線性相關(guān)系數(shù)
- 樣本的線性相關(guān)系數(shù)
-
相關(guān)系數(shù)的假設(shè)檢驗步驟:
- 建立假設(shè)檢驗:
- 計算相關(guān)系數(shù)
的
值:
- 計算
值,作結(jié)論:若
,便可在
的水準(zhǔn)上拒絕
,接受
。
- 建立假設(shè)檢驗:
R語言函數(shù)
- 相關(guān)系數(shù)計算函數(shù)
cor(x,y=NULL,method=c("pearson","kendall","spearman"))
x為數(shù)值向量、矩陣或者數(shù)據(jù)框,y為空或數(shù)值向量、矩陣或數(shù)據(jù)框;- 相關(guān)系數(shù)假設(shè)檢驗函數(shù)
cor.test(x,y)
兩變量間的回歸分析
回歸分析研究兩邊量之間的依存關(guān)系,變量區(qū)分出自變量和因變量,并研究確定自變量和因變量之間的具體關(guān)系的方程形式,即回歸模型,其中以一條直線方程表明兩邊量依存關(guān)系的模型叫單變量(一元)線性回歸模型。其主要步驟包擴:建立回歸模型、求解回歸模型中的參數(shù)、對回歸模型進(jìn)行檢驗等。
直線方程模型為:
一元線性回歸模型的參數(shù)估計(最小二乘法):
回歸系數(shù)的假設(shè)檢驗,方法有二:
(1) 方差分析:
也就是對整個模型進(jìn)行檢驗,大致步驟如下:
建立假設(shè)檢驗:
:所有回歸系數(shù)都等于0,
=0.05;
-
計算統(tǒng)計量
:
其中:
-
計算P值,作結(jié)論:若
,便可于
的水平處拒絕
,即回歸系數(shù)具有統(tǒng)計學(xué)意義,因變量與自變量之間存在直線回歸關(guān)系。
(2) t檢驗:
也就是單獨對回歸系數(shù)進(jìn)行檢驗,相對應(yīng)的零假設(shè)就是某個回歸系數(shù)等于零。統(tǒng)計量為:
其中:
- R語言函數(shù)
- 線性擬合函數(shù):
lm(formula,data)- 添加回歸線:
abline(model)- 模型方差分析:
anova(model)- 回歸系數(shù)t檢驗:
summary(model)
4.2 多元線性回歸分析
多元回歸參數(shù)的最小二乘估計
從多元線性模型的回歸矩陣形式可知,若模型的參數(shù)
已獲得,則
,于是殘差
,根據(jù)最小二乘的原理,所選擇的估計方法應(yīng)是估計值
與觀察值
之間的殘差
在所有樣本點上達(dá)到最小,即使:
達(dá)到最小,根據(jù)微積分求極值的原理,
對
求導(dǎo)且等于0,可求得使
達(dá)到最小的
,這就是所謂的最小二乘(LS)法。
多元回歸參數(shù)的統(tǒng)計檢驗
多元回歸的假設(shè)檢驗同樣也可用方差分析以及t分析,只不過統(tǒng)計量的計算方法有所不同:
- 多元回歸方差分析:
其中:
![]()
方差分解為:
- 回歸系數(shù)的t檢驗:
標(biāo)準(zhǔn)化回歸系數(shù)
在多元線性回歸方程中,由于各自變量的單位不同,得到的回歸系數(shù)也就有不同的量綱,因此,回歸系數(shù)的大小只能表明變量與因變量在數(shù)量上的關(guān)系,而不能表示各自變量在回歸方程的重要性。要比較各個自變量的重要性必須消除單位的影響,為此,在做線性回歸時需要對變量值作標(biāo)準(zhǔn)化的變換,即變量減去其均值并除以其標(biāo)準(zhǔn)差的估計,由此得到的回歸系數(shù)被稱為標(biāo)準(zhǔn)化系數(shù)。
因為標(biāo)準(zhǔn)化系數(shù)沒有單位,可用其絕對值大小來說明多元回歸模型中各自變量的相對重要性,標(biāo)準(zhǔn)化系數(shù)的含義是當(dāng)自變量增加一個單位時,因變量增加或減少的單位數(shù),它與原來未標(biāo)準(zhǔn)化的多元回歸系數(shù)的關(guān)系為:
可以看出,標(biāo)準(zhǔn)化系數(shù)不僅與自變量的回歸系數(shù)相關(guān),而且與這個自變量的波動程度有關(guān)。如果波動程度較大(自變量的標(biāo)準(zhǔn)差較大),自變量就會顯得較為重要,否則就顯得不太重要。然而在利用上式求解標(biāo)準(zhǔn)化系數(shù)時,沒有考慮各變量間是否存在交互作用。
- R語言函數(shù)
library(mvstats)
coef.sd(model) #計算標(biāo)準(zhǔn)化回歸系數(shù)
4.3 多元相關(guān)分析
在相關(guān)分析中,研究較多的是兩個變量之間的關(guān)系,稱為簡單相關(guān);當(dāng)涉及到的變量為3個或以上時,稱為偏相關(guān)或復(fù)相關(guān)。
設(shè)樣本矩陣為:
此時任意兩個變量間相關(guān)系數(shù)構(gòu)成的矩陣為:
其中為任意兩變量之間的簡單相關(guān)系數(shù):
- R語言函數(shù)
- 多元數(shù)據(jù)相關(guān)系數(shù)矩陣計算函數(shù):
cor()- 相關(guān)矩陣檢驗函數(shù):
mvstats::corrtest()
復(fù)相關(guān)分析
在實際分析中,一個變量的變化往往要受到多種變量的綜合影響,這時就需要采用復(fù)相關(guān)分析方法。所謂復(fù)相關(guān),就是研究多個變量同時與某個變量之間的相關(guān)關(guān)系,度量復(fù)相關(guān)程度的指標(biāo)是復(fù)相關(guān)系數(shù)。
假定回歸模型為:
復(fù)相關(guān)系數(shù)計算公式為:
決定系數(shù)為:
- R語言代碼
- 顯示多元線性回歸模型決定系數(shù):
R2= summary(model)$r.sq- 顯示多元數(shù)據(jù)復(fù)相關(guān)系數(shù):
R = sqrt(R2)