Logistic回歸分析之二元Logistic回歸

在研究X對于Y的影響時(shí),如果Y為定量數(shù)據(jù),那么使用多元線性回歸分析(SPSSAU通用方法里面的線性回歸);如果Y為定類數(shù)據(jù),那么使用Logistic回歸分析。

結(jié)合實(shí)際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。

Logistic回歸分析用于研究X對Y的影響,并且對X的數(shù)據(jù)類型沒有要求,X可以為定類數(shù)據(jù),也可以為定量數(shù)據(jù),但要求Y必須為定類數(shù)據(jù),并且根據(jù)Y的選項(xiàng)數(shù),使用相應(yīng)的數(shù)據(jù)分析方法。

?

本次內(nèi)容將針對二元logistic(logit)回歸進(jìn)行說明,后續(xù)兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。

?

1、二元logistic分析思路說明

在進(jìn)行二元Logistic回歸分析時(shí),通常會涉及3個(gè)步驟,分別是數(shù)據(jù)處理、卡方分析和影響關(guān)系研究,如下圖。

?

1.1 第一步為數(shù)據(jù)處理

例如,在研究相關(guān)因素對樣本將來是否愿意購買理財(cái)產(chǎn)品的影響情況時(shí),性別,專業(yè)等均為影響因素,而且明顯的,性別和專業(yè)屬于定類數(shù)據(jù),因此需要進(jìn)行虛擬啞變量設(shè)置,可使用【數(shù)據(jù)處理->生成變量】完成。

?

除此之外,二元logistic回歸要求因變量只能為2項(xiàng),而且數(shù)字一定是0和1,數(shù)字1表示YES,愿意,購買,患病等,數(shù)字0表示no,不愿意,不購買,不患病等。如果不是這樣,那么就需要針對因變量Y進(jìn)行數(shù)據(jù)編碼,使用【數(shù)據(jù)處理->數(shù)據(jù)編碼】即可完成。

?

1.2 第二步為卡方分析或方差分析

此步不是必需的步驟,通過此步可以試探性了解每個(gè)影響因素X與Y之間的影響關(guān)系情況,研究影響關(guān)系前,首先需要自變量X與Y之間有著差異關(guān)系,才可能進(jìn)一步有著影響關(guān)系,也或者說差異關(guān)系是一種基礎(chǔ)性關(guān)系,影響關(guān)系是更進(jìn)一步的深層次關(guān)系。所以在進(jìn)行二元logistic回歸分析前,可先對X做差異分析,篩選出與Y有著差異性的X。

?

如果X是定類數(shù)據(jù),那么就使用卡方分析去分析差異;如果說X是定量數(shù)據(jù),那么可使用方差分析去研究X和Y的差異性。

?

分析完成X與Y的差異關(guān)系之后,篩選出有差異的X,然后再放入模型中,進(jìn)行二元logistic回歸;這樣做的目的有兩個(gè),一是簡化模型,越簡單的模型越容易擬合且效果越好;二是做到心里有數(shù),提前了解到數(shù)據(jù)之間的大致關(guān)系情況。

?

1.3 第三步為影響關(guān)系分析,即二元Logistic回歸分析

在上一步確認(rèn)了可能的影響因素之后,此步驟直接對題進(jìn)行二元Logistic回歸分析。二元Logistic回歸分析時(shí),首先需要看某個(gè)題是否呈現(xiàn)出顯著性(如果P值小于0.05,則說明呈現(xiàn)出0.05水平的顯著性;如果P值小于0.01,則說明呈現(xiàn)出0.01水平的顯著性),如果呈現(xiàn)出顯著性,那么說明該題對Y有影響關(guān)系。具體是正向影響還是負(fù)向影響需要結(jié)合對應(yīng)的回歸系數(shù)值進(jìn)行說明,如果回歸系數(shù)值大于0,則說明是正向影響;反之則說明是負(fù)向影響。

?

除此之外,二元Logistic回歸分析會涉及一個(gè)術(shù)語——對數(shù)比(SPSSAU中稱其為OR值)。對數(shù)比是一個(gè)倍數(shù)概念指標(biāo),該值等于回歸系數(shù)的指數(shù)次方,也稱exp(b)值。例如,研究相關(guān)因素對樣本‘是否購買理財(cái)產(chǎn)品’的影響,性別因素呈現(xiàn)出顯著性,并且性別以女性為對照項(xiàng),其對數(shù)比(OR值)為1.34,這說明男性樣本購買理財(cái)產(chǎn)品的可能性是女性樣本的1.34倍。

?

二元Logistic回歸分析模型的擬合情況或模型效果的判斷會涉及3個(gè)指標(biāo),分別是Hosmer和Lemeshow檢驗(yàn)、R2值和模型預(yù)測準(zhǔn)確率表格。Hosmer和Lemeshow檢驗(yàn)用于檢驗(yàn)事實(shí)數(shù)據(jù)情況與模型擬合結(jié)果是否保持一致,如果在進(jìn)行Hosmer和Lemeshow檢驗(yàn)時(shí)P值大于0.05,那么說明事實(shí)數(shù)據(jù)情況與模型擬合結(jié)果保持一致,即說明模型擬合情況良好。

?

R2用于表示模型擬合程度,此值與多元線性回歸分析的R2值意義基本一致,此值的取值范圍為0~1,值越大意味著相關(guān)因素對Y的解釋力度越高。SPSSAU提供3個(gè)R方值指標(biāo),分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

?

除此之外,SPSSAU還會輸出模型預(yù)測準(zhǔn)確率表格,用于分析模型的預(yù)測水平情況。比如有多大比例將本身為愿意購買理財(cái)產(chǎn)品的樣本誤判斷為不愿意購買理財(cái)產(chǎn)品的樣本。

?

2、如何使用SPSSAU進(jìn)行二元logistic操作

在進(jìn)行二元logistic回歸分析時(shí),共分為三個(gè)步驟,第1步是數(shù)據(jù)處理。第二步是進(jìn)行卡方或者方差分析試控X對于Y的差異,找出有差異關(guān)系的X,用于進(jìn)一步的二元logistic回歸分析。

?

2.1 數(shù)據(jù)處理

如果X是定類數(shù)據(jù),比如性別或?qū)I(yè)。那么就需要首先對它們做虛擬啞變量處理,使用SPSSAU【數(shù)據(jù)處理】--【生成變量】。操作如下圖:



因變量Y只能包括數(shù)字0和1,如果因變量的原始數(shù)據(jù)不是這樣,那么就需要數(shù)據(jù)編碼,設(shè)置成0和1,使用SPSSAU數(shù)據(jù)處理->數(shù)據(jù)編碼功能,操作如下圖:



2.2 卡方分析或方差分析

本例子中想研究性別,專業(yè),年齡,月生活費(fèi)共4項(xiàng)對于‘是否愿意理財(cái)’的影響。性別,專業(yè)這兩項(xiàng)為定類數(shù)據(jù),所以可使用卡方分析它們分別與‘是否愿意理財(cái)’的差異關(guān)系。而年齡和月生活費(fèi)可看成定量數(shù)據(jù),可使用方差分析(或非參數(shù)檢驗(yàn))分析它們分別與‘是否愿意理財(cái)’的差異關(guān)系情況。

?

由于例子里面僅4個(gè)X,本身就較少,因此模型本身并不復(fù)雜,因此直接忽略此步驟即可,直接進(jìn)行二元logistic回歸分析。

?

2.3 二元logistic回歸分析

SPSSAU進(jìn)行二元logistic回歸分兩步,分別是在進(jìn)階方法里面找到二元logit,第二是拖拽分析項(xiàng)到右我們就是右側(cè)框后開始分析,如下所示:

性別和專業(yè)均為定類數(shù)據(jù),所以進(jìn)行了虛擬啞變量設(shè)置。


而且性別分為男和女,以女作為參照項(xiàng),因此框中僅放入‘男’即可;

?

專業(yè)分為理工類,文科類,藝術(shù)類和,體育類;以體育類作為參照項(xiàng),因此框中會少放體育類,放入另外3項(xiàng)即理工類,文科類和藝術(shù)類即可。

?

虛擬啞變量在進(jìn)行影響關(guān)系研究時(shí),一定需要有1個(gè)參照項(xiàng),至于具體是哪一項(xiàng),由研究者自行決定即可,無固定要求,一般是第1個(gè)或者最后1個(gè),或者研究者希望設(shè)置作為參考項(xiàng)的。

?

完成后,SPSSAU會得到一系列的表格和智能分析,包括模型基本匯總表格,模型似然比檢驗(yàn)表格,模型參數(shù)擬合表格,模型預(yù)測準(zhǔn)確率表格,Hosmer-Lemeshow擬合度檢驗(yàn)等。如下:

?

二元logit回歸分析基本匯總

二元logit回歸模型似然比檢驗(yàn)結(jié)果

二元logit回歸結(jié)果分析

二元logit回歸預(yù)測準(zhǔn)確率表格

Hosmer-Lemeshow擬合度檢驗(yàn)?


3、二元logistic相關(guān)問題

在使用SPSSSAU進(jìn)行二元logistic回歸時(shí),可能會出現(xiàn)一些問題,比如提示奇異矩陣,質(zhì)量異常,Y值只能為0或1等,接下來一一說明。


第1點(diǎn):出現(xiàn)奇異矩陣或質(zhì)量異常

如果做二元logistic提示奇異矩陣,通常有兩個(gè)原因,一是虛擬啞變量設(shè)置后,本應(yīng)該少放1項(xiàng)作為參考項(xiàng)但是并沒有,而是把所有的啞變量項(xiàng)都放入框中,這會導(dǎo)致絕對的共線性問題即會出現(xiàn)奇異矩陣矩陣。二是X之間有著太強(qiáng)的共線性(可使用通用方法的線性回歸查看下VIF值),此時(shí)也可能導(dǎo)致模型無法擬合等。先找出原因,然后把有問題的項(xiàng)移出模型中即可。

?

同時(shí),如果自變量X的分布極其不均勻,SPSSAU建議可先對類別進(jìn)行組合,可使用數(shù)據(jù)處理里面的數(shù)據(jù)編碼完成。

?

第2點(diǎn):Y值只能為0或1

二元logistic回歸研究X對Y的影響,Y為兩個(gè)類別,比如是否愿意,是否喜歡,是否患病等,數(shù)字一定有且僅為2個(gè),分別是0和1。如果不是這樣就會出現(xiàn)此類提示,可使用SPSSAU頻數(shù)分析進(jìn)行檢查,并且使用數(shù)據(jù)處理->數(shù)據(jù)編碼功能進(jìn)行處理成0和1。

?

第3點(diǎn):OR值的意義

OR值=exp(b)值,即回歸系數(shù)的指數(shù)次方,該值在醫(yī)學(xué)研究里面使用較多,實(shí)際意義是X增加1個(gè)單位時(shí),Y的增加幅度。如果僅僅是研究影響關(guān)系,該值意義較小。

?

第4點(diǎn): wald值或z值

z 值=回歸系數(shù)/標(biāo)準(zhǔn)誤,該值為中間過程值無意義,只需要看p 值即可。有的軟件會提供wald值(但不提供z 值,該值也無實(shí)際意義),wald值= z 值的平方。

?

第5點(diǎn): McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相關(guān)問題?

Logit回歸時(shí)會提供此3個(gè)R 方值(分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3個(gè)R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達(dá)模型的擬合程度,意義相對交小,而且多數(shù)情況此3個(gè)指標(biāo)值均會特別小,研究人員不用過分關(guān)注于此3個(gè)指標(biāo)值。一般報(bào)告其中任意一個(gè)R方值指標(biāo)即可。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容