多元相關(guān)與回歸分析及R使用 - part1

本章為MOOC《多元統(tǒng)計分析與R語言建?!氛n程的第4章,內(nèi)容明顯比前兩章多多了。

4.1變量間的關(guān)系分析

變量間的關(guān)系及分析方法

2020-02-19 17-52-35屏幕截圖.png

兩變量線性相關(guān)系數(shù)

  • 樣本的線性相關(guān)系數(shù)

r = \frac {s_{xy}}{\sqrt{{s_x^2}{s_y^2}}} = \frac {l_{xy}}{\sqrt{l_{xx}l_{yy}}} = \frac {\sum{(x-\overline x)(y - \overline{y})}}{\sqrt{(x-\overline x)^2(y - \overline y)^2}}

  • 相關(guān)系數(shù)的假設(shè)檢驗步驟:

    • 建立假設(shè)檢驗:H_0:\rho = 0,H_1:\rho ≠ 0, \alpha = 0.05
    • 計算相關(guān)系數(shù)rt值:t = \frac{r-0}{\sqrt{\frac {1-r^2}{n-2}}}
    • 計算P值,作結(jié)論:若P < 0.05,便可在\alpha = 0.05的水準(zhǔn)上拒絕H_0,接受H_1
  • R語言函數(shù)

  • 相關(guān)系數(shù)計算函數(shù)
    cor(x,y=NULL,method=c("pearson","kendall","spearman"))
    x為數(shù)值向量、矩陣或者數(shù)據(jù)框,y為空或數(shù)值向量、矩陣或數(shù)據(jù)框;
  • 相關(guān)系數(shù)假設(shè)檢驗函數(shù)
    cor.test(x,y)

兩變量間的回歸分析

回歸分析研究兩邊量之間的依存關(guān)系,變量區(qū)分出自變量和因變量,并研究確定自變量和因變量之間的具體關(guān)系的方程形式,即回歸模型,其中以一條直線方程表明兩邊量依存關(guān)系的模型叫單變量(一元)線性回歸模型。其主要步驟包擴:建立回歸模型、求解回歸模型中的參數(shù)對回歸模型進(jìn)行檢驗等。

  • 直線方程模型為:\hat y = \alpha + bx

  • 一元線性回歸模型的參數(shù)估計(最小二乘法):
    b = \frac {\sum_{i=1}^n{(x_i - \overline x)(y_i - \overline y)}}{\sum_{i=1}^n{(x_i - \overline x)^2}} , \alpha = \overline y - b\overline x

  • 回歸系數(shù)的假設(shè)檢驗,方法有二:

(1) 方差分析:

也就是對整個模型進(jìn)行檢驗,大致步驟如下:

  • 建立假設(shè)檢驗:H_0:所有回歸系數(shù)都等于0,\alpha=0.05;

  • 計算統(tǒng)計量F

    F = \frac{MS_R}{MS_E}

    其中:

    MS_R = \frac {SS_R}{df_R},MS_E = \frac {SS_E}{df_E} \\ SS_R = \sum_{i=1}^n{(\hat y_i - \overline y)} = b\sum_{i=1}^n{(y_i - \overline y )(x_i - \overline x)} = bl_{xy} \\ SS_E = \sum_{i=1}^n{(y_i - \overline y_i)^2 - \sum_{i=1}^n{(\hat y_i - \overline y)^2}}

  • 計算P值,作結(jié)論:若P < 0.05,便可于\alpha = 0.05的水平處拒絕H_0,即回歸系數(shù)具有統(tǒng)計學(xué)意義,因變量與自變量之間存在直線回歸關(guān)系。

    (2) t檢驗:

也就是單獨對回歸系數(shù)進(jìn)行檢驗,相對應(yīng)的零假設(shè)就是某個回歸系數(shù)等于零。統(tǒng)計量為:

t = \frac{b - \beta}{s_b}\ \tilde{~}\ t(n-2)
其中:

S_b = \frac{S_{y,x}}{\sqrt{\sum_{i=1}^n(x_i - \overline x)}} = \frac{S_{y,x}}{\sqrt{l_{xx}}} \\ S_{y,x} = \sqrt{\frac{\sum_{i=1}^n(y_i - \hat y_i)^2}{n-2}} = \sqrt{\frac{SSE}{n-2}}= \sqrt{MSE}

  • R語言函數(shù)
  • 線性擬合函數(shù):
    lm(formula,data)
  • 添加回歸線:
    abline(model)
  • 模型方差分析:
    anova(model)
  • 回歸系數(shù)t檢驗:
    summary(model)

4.2 多元線性回歸分析

多元回歸參數(shù)的最小二乘估計

從多元線性模型的回歸矩陣形式y = \mathbf{X}\beta + \epsilon可知,若模型的參數(shù)\beta已獲得,則\hat y = \mathbf X \hat \beta,于是殘差e_i = y_i - \hat y_i,根據(jù)最小二乘的原理,所選擇的估計方法應(yīng)是估計值\hat y_i與觀察值y_i之間的殘差e_i在所有樣本點上達(dá)到最小,即使:
Q = \sum_{I=1}^n(y_i - \hat{y}^2) = e^{'}e = (y - \mathbf{X}\hat \beta)^{'}(y-\mathbf{X}\hat{\beta})達(dá)到最小,根據(jù)微積分求極值的原理,Q\beta求導(dǎo)且等于0,可求得使Q達(dá)到最小的\hat \beta,這就是所謂的最小二乘(LS)法。

多元回歸參數(shù)的統(tǒng)計檢驗

多元回歸的假設(shè)檢驗同樣也可用方差分析以及t分析,只不過統(tǒng)計量的計算方法有所不同:

  • 多元回歸方差分析:

F = \frac{MS_R}{MS_E}\ \tilde{~}\ F (p,n - p - 1)

其中:

MS_R =\frac{SS_R}{df_R} = \sum_{i=1}^n{\frac{(\hat{y_i} - \overline{y})^2}{p}} MS_E = \frac{SS_E}{df_E}
方差分解為:
SS_r = \sum_{i=1}^n(y_i - \overline{y})^2 = \sum_{i=1}^n(y_i - \hat{y_i})^2 + \sum_{i=1}^n(\hat{y_i} - \overline{y})^2 = SS_R + SS_E

  • 回歸系數(shù)的t檢驗:

t_j = \frac{\hat{\beta_j} - \beta_j}{s_{\hat{\beta_j}}},j=1,2,\cdots,p

標(biāo)準(zhǔn)化回歸系數(shù)

在多元線性回歸方程中,由于各自變量的單位不同,得到的回歸系數(shù)也就有不同的量綱,因此,回歸系數(shù)的大小只能表明變量與因變量在數(shù)量上的關(guān)系,而不能表示各自變量在回歸方程的重要性。要比較各個自變量的重要性必須消除單位的影響,為此,在做線性回歸時需要對變量值作標(biāo)準(zhǔn)化的變換,即變量減去其均值并除以其標(biāo)準(zhǔn)差的估計,由此得到的回歸系數(shù)被稱為標(biāo)準(zhǔn)化系數(shù)。

因為標(biāo)準(zhǔn)化系數(shù)沒有單位,可用其絕對值大小來說明多元回歸模型中各自變量的相對重要性,標(biāo)準(zhǔn)化系數(shù)的含義是當(dāng)自變量增加一個單位時,因變量增加或減少的單位數(shù),它與原來未標(biāo)準(zhǔn)化的多元回歸系數(shù)的關(guān)系為:

\hat{\beta}^{'} = \hat{\beta_i}\frac{s_i}{s_y}(i = 1,2,\cdots,p)

可以看出,標(biāo)準(zhǔn)化系數(shù)不僅與自變量的回歸系數(shù)相關(guān),而且與這個自變量的波動程度有關(guān)。如果波動程度較大(自變量的標(biāo)準(zhǔn)差較大),自變量就會顯得較為重要,否則就顯得不太重要。然而在利用上式求解標(biāo)準(zhǔn)化系數(shù)時,沒有考慮各變量間是否存在交互作用

  • R語言函數(shù)
library(mvstats)
coef.sd(model) #計算標(biāo)準(zhǔn)化回歸系數(shù)

4.3 多元相關(guān)分析

在相關(guān)分析中,研究較多的是兩個變量之間的關(guān)系,稱為簡單相關(guān);當(dāng)涉及到的變量為3個或以上時,稱為偏相關(guān)復(fù)相關(guān)

設(shè)樣本矩陣為:
\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \cdots & \cdots & \cdots & \cdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}

此時任意兩個變量間相關(guān)系數(shù)構(gòu)成的矩陣為:

R ={\begin{bmatrix} r_{11} & r_{12} & \cdots & r_{1p} \\ r_{21} & r_{22} & \cdots & r_{2p} \\ \cdots & \cdots & \cdots & \cdots \\ r_{p1} & r_{p2} & \cdots & r_{pp} \end{bmatrix} } = {\begin{bmatrix} 1 & r_{12} & \cdots & r_{1p} \\ r_{21} & 1 & \cdots & r_{2p} \\ \cdots & \cdots & \cdots & \cdots \\ r_{p1} & r_{p2} & \cdots & 1 \end{bmatrix} } = (r_{ij})_{p*p}

其中r{ij}為任意兩變量之間的簡單相關(guān)系數(shù):

r_{ij} = \frac{\sum_{ij}(x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_i(x_i - \overline{x})^2 \sum_j(y_j - \overline{y})^2}}

  • R語言函數(shù)
  • 多元數(shù)據(jù)相關(guān)系數(shù)矩陣計算函數(shù):cor()
  • 相關(guān)矩陣檢驗函數(shù):mvstats::corrtest()

復(fù)相關(guān)分析

在實際分析中,一個變量的變化往往要受到多種變量的綜合影響,這時就需要采用復(fù)相關(guān)分析方法。所謂復(fù)相關(guān),就是研究多個變量同時與某個變量之間的相關(guān)關(guān)系,度量復(fù)相關(guān)程度的指標(biāo)是復(fù)相關(guān)系數(shù)。

假定回歸模型為:

y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_px_p + e
\hat y = b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p

復(fù)相關(guān)系數(shù)計算公式為:
R = \sqrt{\frac{\sum{(\hat{y_i} - \overline{y})^2}}{\sum{(y_i - \overline y})^2}} = \sqrt{\frac{SS_R}{SS_T}}
決定系數(shù)為:
R^2 = \frac{SS_R}{SS_T}

  • R語言代碼
  • 顯示多元線性回歸模型決定系數(shù):R2= summary(model)$r.sq
  • 顯示多元數(shù)據(jù)復(fù)相關(guān)系數(shù):R = sqrt(R2)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容