??回歸分析是一種通過樣本數(shù)據(jù),確定自變量和因變量之間相互關(guān)系的一種統(tǒng)計(jì)分析方法,主要用來解決兩個(gè)方面的問題:一個(gè)是推斷(inference),從影響因變量的諸多自變量中找出哪些變量的影響是顯著的,哪些是不顯著的,影響程度如何。第二個(gè)是預(yù)測(cè)(prediction),利用確定的數(shù)學(xué)表達(dá)式,對(duì)給定的自變量,預(yù)測(cè)因變量的值,并給出這種預(yù)測(cè)的可靠程度。依據(jù)因變量的類型,回歸分析包括多元線性回歸,邏輯回歸,多項(xiàng)式邏輯回歸,定序回歸,泊松回歸等模型。下面分別介紹這幾種模型的基本原理和應(yīng)用場(chǎng)景,最后通過廣義線性模型的概念將這幾種模型統(tǒng)一到一個(gè)模型框架中。
一、多元線性回歸模型
??當(dāng)研究多個(gè)連續(xù)性自變量與連續(xù)性因變量之間的關(guān)系時(shí),適合多元線性回歸模型。其基本表達(dá)式為:
其中,ε表示誤差項(xiàng),且ε服從均值為0,方差為σ2的正態(tài)分布。
1.1、多元線性回歸的模型假設(shè)
- 多個(gè)自變量與因變量為線性關(guān)系。
- 誤差項(xiàng) ε 服從平均值為 0,方差為 σ2 的正態(tài)分布,而且方差的大小不隨著預(yù)測(cè)變量 x 值改變,也叫做同方差性。
1.2、顯著性檢驗(yàn)
(1)相關(guān)系數(shù)r的顯著性檢驗(yàn)
??相關(guān)系數(shù)r描述的是兩個(gè)數(shù)值型變量線性相關(guān)的大小,取值為-1~+1,當(dāng)r=-1時(shí)為完全負(fù)相關(guān),r=+1時(shí)為完全負(fù)相關(guān),r=0時(shí)為完全不相關(guān)。注意,r描述的變量間線性相關(guān)性大小的度量,r=0說明變量間不存在線性相關(guān)關(guān)系,但可能存在非線性相關(guān)關(guān)系。
??如果總體的線性相關(guān)系數(shù)ρ未知,需要通過樣本的線性相關(guān)系數(shù)r來檢驗(yàn)總體的變量間線性相關(guān)的顯著性,可以通過t檢驗(yàn)法,具體步驟如下:
1)提出假設(shè)
H0:ρ=0, H1:ρ≠0
2)構(gòu)造t統(tǒng)計(jì)量

3)給定顯著性水平α,確定拒絕域,做出決策
依據(jù)給定的顯著性水平α,查找t分布表的tα/2(n-2),如果t>tα/2(n-2),則拒絕原假設(shè),認(rèn)為總體的兩個(gè)變量是線性相關(guān)的。
(2)總體顯著性檢驗(yàn)
線性關(guān)系檢驗(yàn)是檢驗(yàn)因變量與k個(gè)自變量之間線性關(guān)系是否顯著,也成總體顯著性檢驗(yàn)。
- 提出假設(shè)
H0:β1=β2=...=βk=0
H1:β1,β2...βk至少有一個(gè)不等于0
- 提出假設(shè)
-
2)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量F
- 3)做出統(tǒng)計(jì)決策
給定顯著性水平α條件下,根據(jù)分子自由度為k,分母自由度為n-k-1的F分布,找到Fα,如果F>Fα,則拒絕原假設(shè),表明因變量與k個(gè)自變量線性關(guān)系顯著。
(3)回歸系數(shù)檢驗(yàn)
檢驗(yàn)一個(gè)自變量對(duì)因變量的影響程度,可以用t檢驗(yàn)法。 - 1)提出假設(shè)
H0:βi=0
H1:βi≠0 - 2)構(gòu)造t統(tǒng)計(jì)量
-3) 做出決策
對(duì)于給定的顯著性水平α,依據(jù)自由度n-k-1計(jì)算tα/2的值,如果t>tα/2,則拒絕原假設(shè),表明自變量對(duì)因變量的影響是顯著的。
1.3、回歸系數(shù)的解讀
- 多元線性回歸模型的回歸系數(shù),當(dāng)各個(gè)自變量相互獨(dú)立時(shí)(即回歸模型中自變量沒有很強(qiáng)的相關(guān)性),連續(xù)型自變量回歸系數(shù)表示在其他條件不變的情況下,自變量每增加一個(gè)單位因變量的變化值;分類型自變量回歸系數(shù)表示,在其他條件不變的情況下,自變量的某一類別相對(duì)與參考類別,多對(duì)應(yīng)的因變量平均值的差異。
- 回歸模型中的截距,表示自變量為0時(shí),因變量的值。很多時(shí)候自變量為0沒有意義,這時(shí)可以對(duì)數(shù)據(jù)進(jìn)行中心化處理,即先將自變量統(tǒng)一減去平均值,再做回歸。這時(shí),截距β0的意義為,自變量取平均值時(shí),因變量的取值。
- 當(dāng)兩個(gè)變量x1,x2之間存在交互作用時(shí),可以將交互變量x1*x2作為一個(gè)變量加入到回歸模型中。這時(shí),回歸系數(shù)的含義就與上述第1條的含義不同了。很多時(shí)候,建立含有交互變量的回歸模型是為了做統(tǒng)計(jì)推斷,通過交互變量的回歸系數(shù)檢驗(yàn),判斷兩個(gè)變量之間交互作用是否顯著。
- 混雜效應(yīng):如果自變量x1與因變量y顯著相關(guān),且是導(dǎo)致y變化的原因,自變量x2本質(zhì)與因變量y無因果關(guān)系,但與自變量x1有相關(guān)關(guān)系。那么如果模型中只包含x1變量,x1回歸系數(shù)會(huì)顯著相關(guān);如果再
新加入自變量x2,會(huì)導(dǎo)致本來顯著的x1回歸系數(shù)變?yōu)椴伙@著。這時(shí)的自變量x1為混雜變量。 - 遮蔽效應(yīng):如果在包含自變量x1,x2的回歸模型中,x1與因變量y呈顯著的正相關(guān)關(guān)系,x2與因變量y呈顯著的負(fù)相關(guān)關(guān)系,如果x1與x2有正相關(guān)關(guān)系,那么在只包含x1的回歸模型中回歸系數(shù)可能變得不顯著。此為遮蔽效應(yīng)。
1.4 回歸模型評(píng)價(jià)的指標(biāo)
(1)多重判定系數(shù)R2
回歸直線對(duì)各個(gè)觀測(cè)點(diǎn)的接近程度稱為回歸直線對(duì)數(shù)據(jù)的擬合優(yōu)度。
樣本觀測(cè)值與樣本均值的差值平方和(總平方和SST),可以分解為樣本回歸預(yù)測(cè)值與樣本觀測(cè)值的差值平方和(殘差平方和SSE)和樣本回歸預(yù)測(cè)值與樣本均值的差值平方和(回歸平方和SSR)

多重判定系數(shù)R2為回歸平方和與總平方和的比值,表示樣本觀測(cè)值與平均值的離差程度中有多少可以用回歸方程來解釋。

但是回歸模型中變量個(gè)數(shù)的增加會(huì)使R2只增加不減少。因此如果單純?cè)黾右恍o關(guān)的自變量,也會(huì)使R2增加。
(2)修正的R2
為了消除變量個(gè)數(shù)增加對(duì)R2的高估,統(tǒng)計(jì)學(xué)家提出利用Ra2來代替,該數(shù)值越大,模型越好:

(3) 赤池信息標(biāo)準(zhǔn)(Akaike Information Criterion,簡稱AIC, 因日本統(tǒng)計(jì)學(xué)家赤池弘次而得名):數(shù)值越小,模型越好;
(4)貝葉斯信息標(biāo)準(zhǔn)(Bayesian Information Criterion,簡稱BIC):數(shù)值越小,模型越好。
其中,(2)~(3)都可以衡量模型與數(shù)據(jù)契合的程度,同時(shí)依據(jù)模型中自變量的數(shù)目進(jìn)行調(diào)整,從而消除過擬合的影響。都可以在不損失樣本數(shù)據(jù)量的情況下,與樣本外驗(yàn)證方法(一部分樣本作為訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,另外一部分樣本作為驗(yàn)證集通過R2評(píng)價(jià)模型好壞)得出的結(jié)果相吻合。
1.5、回歸方程預(yù)測(cè)
回歸方程的預(yù)測(cè)包括點(diǎn)估計(jì)和區(qū)間估計(jì)。點(diǎn)估計(jì)就是給定自變量X的具體取值X0,依據(jù)回歸方程關(guān)系式來估計(jì)Y值;區(qū)間估計(jì)是要在一定置信水平下,給定自變量X的具體取值X0,估計(jì)出Y值的某一區(qū)間,包括置信區(qū)間估計(jì)和預(yù)測(cè)區(qū)間估計(jì)。
(1)置信區(qū)間估計(jì)
給定自變量X的具體取值X0,給出因變量Y平均值的區(qū)間估計(jì)。
當(dāng)為一元線性回歸時(shí),估計(jì)量為:

在1-α的置信水平下,得到的置信區(qū)間估計(jì)為:

(2)預(yù)測(cè)區(qū)間估計(jì)
給定自變量X的具體取值X0,給出因變量Y一個(gè)個(gè)別值的區(qū)間估計(jì)。
當(dāng)為一元線性回歸時(shí),估計(jì)量為:

在1-α的置信水平下,得到的預(yù)測(cè)區(qū)間估計(jì)為:

可以看出,在同一個(gè)X0情況下,預(yù)測(cè)區(qū)間比置信區(qū)間寬一些。
1.6 線性回歸模型的診斷
(1)線性關(guān)系判斷
線性模型有一個(gè)應(yīng)用前提,就是自變量x與因變量y為線性關(guān)系,可通過x與y的散點(diǎn)圖來大致判斷是否為線性關(guān)系,如果不是,可考慮通過加入x2或log線性變換的方法。
(2)殘差分析
在我們建立的所有回歸模型中,都時(shí)假定隨機(jī)誤差ε是一個(gè)期望值為0,方差相等且服從正態(tài)分布的隨機(jī)變量。如果關(guān)于ε的假定條件不成立,那么回歸分析中所有的顯著性檢驗(yàn)和預(yù)測(cè)估計(jì)都不成立。確定ε的假定條件是否成立的分析叫做殘差分析。
1)關(guān)于x的殘差圖
殘差是因變量的觀測(cè)值與預(yù)測(cè)值的差。即ei=yi-i。以自變量x為橫坐標(biāo),殘差為縱坐標(biāo)繪制的散點(diǎn)圖即為關(guān)于x的殘差圖。
如果對(duì)所有的x,ε都相等,那么殘差圖上的點(diǎn)應(yīng)該大致在一條水平線上(如圖a)。如果偏差很大(圖c),需要考慮曲線回歸。
圖b方差隨著自變量x的增大而增大,這種現(xiàn)象稱為異方差性。實(shí)際上,異方差性對(duì)于線性模型并不是一個(gè)致命的打擊,用普通的線性模型估計(jì)出來的回歸系數(shù)與實(shí)際情況也不會(huì)差太多,只是回歸系數(shù)的方差會(huì)被放大。這時(shí)如果使用加權(quán)最小二乘法(weighted least squares),給誤差大的數(shù)據(jù)點(diǎn)相對(duì)小一點(diǎn)的權(quán)重,則會(huì)得到比用普通最小二乘法更準(zhǔn)確的對(duì)于回歸系數(shù)的估計(jì)。

2)標(biāo)準(zhǔn)化殘差圖
如果ε服從期望為0的正態(tài)分布,那么將殘差標(biāo)準(zhǔn)化后的變量就服從標(biāo)準(zhǔn)正態(tài)分布。即

如果關(guān)于ε假設(shè)成立,那么有95%的標(biāo)準(zhǔn)化殘差在-2~2之間。

(3)多重共線性
線性回歸模型要求各自變量間要盡可能相互獨(dú)立。如果回歸方程中多個(gè)自變量之間存在相關(guān)性,則成為多重共線性。
- 判別方法:
1)變量之間相關(guān)系數(shù)r的t檢驗(yàn)顯著
2)線性回歸的F檢驗(yàn)顯著,但是幾乎所有回歸系數(shù)β的t檢驗(yàn)不顯著
3)回歸系數(shù)的正負(fù)號(hào)與預(yù)期的相反
4)容忍度與方差擴(kuò)大因子VIF。容忍度等于1減去該自變量為因變量而其他k-1個(gè)自變量為預(yù)測(cè)變量時(shí)所得到的線性回歸模型的判定系數(shù)。容忍度越小,多重共線性越嚴(yán)重。方差擴(kuò)大因子等于容忍度的倒數(shù),VIF越大,多重共線性越嚴(yán)重。 - 多重共線性問題處理
1)將一個(gè)或多個(gè)相關(guān)的自變量從模型中提出,使保留的自變量盡可能不相關(guān)
2)如果要在模型中保留所有的因變量,應(yīng)該:
避免依據(jù)t統(tǒng)計(jì)量對(duì)單個(gè)參數(shù)β進(jìn)行檢驗(yàn);對(duì)因變量y的推斷限定在自變量樣本值的范圍內(nèi)。 - 多重共線性的弊端
1)回歸系數(shù)無法解讀。部分回歸系數(shù)本來是正相關(guān),由于共線性可能變?yōu)椴幌嚓P(guān)甚至是負(fù)相關(guān)。
2)回歸模型不穩(wěn)定。用不同數(shù)據(jù)計(jì)算出的同一變量的回歸系數(shù),可能差別較大,導(dǎo)致模型不穩(wěn)定。
1.7 強(qiáng)影響點(diǎn)的判斷和處理
- 強(qiáng)影響點(diǎn)的判斷
對(duì)于某個(gè)數(shù)據(jù)點(diǎn),如果殘差較大,則可視為離群值。但離群值不一定是強(qiáng)影響點(diǎn)。為了判斷離群值是否為強(qiáng)影響點(diǎn),可以利用Cook距離來判斷單個(gè)數(shù)據(jù)點(diǎn)對(duì)線性回歸模型的影響。其原理是計(jì)算在有、無該離群值情況下,線性回歸模型回歸系數(shù)的變化,并進(jìn)行標(biāo)準(zhǔn)化,使不同研究、不同數(shù)據(jù)集和不同模型下的Cook距離都可以進(jìn)行比較。通常情況下,如果離群值位于自變量的邊緣,對(duì)模型回歸系數(shù)影響較大,如果位于自變量取值范圍的內(nèi)部,則對(duì)模型回歸系數(shù)影響較小。 - 強(qiáng)影響點(diǎn)的處理
對(duì)于強(qiáng)影響點(diǎn),我們可以選擇去除。但最好的方法是收集更多數(shù)據(jù),隨著更多數(shù)據(jù)加入,如果這個(gè)強(qiáng)影響點(diǎn)真實(shí)反映了客觀事實(shí),那么我們會(huì)向著真相更近一步;如果這個(gè)強(qiáng)影響點(diǎn)是噪聲點(diǎn),那么隨著新數(shù)據(jù)的加入,該點(diǎn)也會(huì)逐漸淡化。
1.8、逐步回歸
最優(yōu)的回歸模型應(yīng)該滿足以下兩個(gè)條件:1)線性回歸的F檢驗(yàn)顯著,回歸平方和能夠解釋的總平方和越大越好。2)每個(gè)自變量對(duì)因變量的影響都是顯著的
通過逐步回歸法可以找到最優(yōu)的回歸模型,同時(shí)逐步回歸也是自動(dòng)篩選最優(yōu)變量和解決共線性的方法之一。逐步回歸有前向法、后向法和逐步法。
對(duì)n個(gè)樣本,每個(gè)樣本包括m個(gè)特征。
- (1)前向法
1)對(duì)m個(gè)變量,分別建立與變量y的一元線性回歸,并計(jì)算線性關(guān)系檢驗(yàn)統(tǒng)計(jì)量F的值,從中選擇最大的F,并對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn),若不顯著,則終止變量選擇過程;否則將對(duì)應(yīng)的一個(gè)自變量x加入到最終的變量選擇集合中。
2)將選中的自變量x分別與未選中的m-1個(gè)自變量建立m-1二元回歸,利用偏回歸平法和、殘差平法和來計(jì)算回歸系數(shù)檢驗(yàn)的F統(tǒng)計(jì)量F(1,n-2-1),從中選擇最大的F,并對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn),若不顯著(F<Fα(1,n-2-1)),則終止變量選擇過程;否則將對(duì)應(yīng)的一個(gè)自變量x加入到最終的變量選擇集合中。
3)將選中的l個(gè)自變量分別與未選中的m-l個(gè)自變量建立m-l個(gè)(l+1)元回歸,利用偏回歸平法和、殘差平法和來計(jì)算回歸系數(shù)檢驗(yàn)的F統(tǒng)計(jì)量F(1,n-(l+1)-1),從中選擇最大的F,并對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn),若不顯著,則終止變量選擇過程;否則將對(duì)應(yīng)的一個(gè)自變量x加入到最終的變量選擇集合中。 - (2)后向法
后向選擇法與前向選擇法相反,初始時(shí)選擇所有m個(gè)變量與y建立回歸,然后從已選變量中去除一個(gè)變量后建立m-1元回歸,利用偏回歸平法和、殘差平方和來計(jì)算回歸系數(shù)檢驗(yàn)的F統(tǒng)計(jì)量F(1,n-m-1),從中選擇最小的F并對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn),若顯著(F>Fα(1,n-m-1)),則剔除對(duì)應(yīng)變量;否則終止變量篩選過程。對(duì)于已選的l個(gè)變量,用于檢驗(yàn)的F統(tǒng)計(jì)量為F(1,n-l-1)。不斷重復(fù)以上過程,直至達(dá)到終止條件。
-(3)逐步回歸法
逐步回歸法是前向法和后向法的結(jié)合。初始時(shí)前向法選擇一個(gè)變量,加入到已選變量中,然后對(duì)已選變量集合進(jìn)行后向法剔除變量。直至前向法不能增加一個(gè)變量,同時(shí)后向法無法剔除一個(gè)變量,終止變量選擇。因此,前一輪被剔除的變量在后面可能被重新選擇,前一輪被選擇的變量在后面也有可能被剔除。
二、邏輯回歸模型
2.1 簡單邏輯回歸模型
(1) 模型數(shù)學(xué)表達(dá)形式
簡單邏輯回歸模型用來解決因變量是二元取值(只能取0或1)的分類模型。其數(shù)學(xué)表達(dá)式如下:

其中,右邊與線性回歸模型表達(dá)式一致,左邊對(duì)其進(jìn)行了一個(gè)線性變換,log(p/(1-p))稱為分對(duì)數(shù)。p代表因變量取1時(shí)的概率。
(2)回歸系數(shù)的解讀
- 1)自變量為連續(xù)變量
由于概率p與自變量x為非線性關(guān)系,因此,在自變量x增加單位值時(shí),p增加值不是固定的,隨著x取值的變化而變化。由數(shù)學(xué)微積分知識(shí)可以證明,邏輯回歸系數(shù)可以解讀為:當(dāng)自變量x變化一個(gè)單位時(shí),概率p變化的最大值為回歸系數(shù)除以4(又稱為除4法則)。 - 2)自變量為分類變量
如果自變量為分類變量,且有N個(gè)取值,可以用N-1個(gè)啞變量來表示這N個(gè)取值,剩下的那1個(gè)變量為參考變量。此時(shí),啞變量回歸系數(shù)表示,當(dāng)自變量取值為該值時(shí),相對(duì)于參考變量概率變化了多少。如果回歸系數(shù)為正值,表示相對(duì)于參考變量概率提升,如果為負(fù)值表示相對(duì)于參考變量概率下降。
(3)回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn) - 1)Wald檢驗(yàn)
此方法與線性回歸模型回歸系數(shù)的檢驗(yàn)方法一致,通過原假設(shè)回歸系數(shù)為0,然后構(gòu)造回歸系數(shù)的z檢驗(yàn)或t檢驗(yàn)統(tǒng)計(jì)量,來判斷p值是否小于顯著性水平。但是,在邏輯回歸模型可以完美區(qū)分?jǐn)?shù)據(jù)集的情況下(即在自變量取值范圍內(nèi)數(shù)據(jù)取0或1是涇渭分明的),滿足條件的邏輯回歸模型有多個(gè),這時(shí)回歸系數(shù)統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差很大,導(dǎo)致最終的p值很大,傾向于接受原假設(shè),這與事實(shí)不符。因此,需要用到第二種檢驗(yàn)方法:似然比檢驗(yàn)。 - 2)似然比檢驗(yàn)
似然比檢驗(yàn)的思路是,分別計(jì)算在不包含自變量x與包含自變量x兩種情況下,通過極大似然估計(jì)得到模型參數(shù)后,分別計(jì)算似然值L0和L1,當(dāng)L1比L0大到一定程度時(shí),可以認(rèn)為回歸系數(shù)不顯著為0。統(tǒng)計(jì)學(xué)中用擬合優(yōu)度G2作為檢驗(yàn)統(tǒng)計(jì)量進(jìn)行檢驗(yàn),其公式如下:
統(tǒng)計(jì)學(xué)軟件中通常不會(huì)給出L0和L1的值,而是會(huì)給出偏常(deviance,通常用D表示)的值。偏常D的計(jì)算公式如下:
其中,Lfull表示飽和模型的似然值,飽和模型是一個(gè)可以完美擬合所有數(shù)據(jù)(0和1)的理想模型,僅僅與具體數(shù)據(jù)集有關(guān)系,是模型可以達(dá)到似然值的上限。
因此,擬合優(yōu)度G2為無、有自變量x情況下偏常的差值,即:
(3)邏輯回歸模型的診斷
與線性回歸模型相比,邏輯回歸模型不要求殘差服從正態(tài)分布,且不要求齊方差性。模型假設(shè)僅要求模型的分位數(shù)與自變量之間為線性關(guān)系。同樣,可以利用殘差圖來分析。
與之不同的是,由于因變量只能取0或1,因此預(yù)測(cè)概率在取特定值p時(shí),殘差只能為-p或1-p,數(shù)據(jù)點(diǎn)在兩條直線上,不便分析。因此,可以通過分箱殘差圖來判斷,方法是:將預(yù)測(cè)概率區(qū)間分段,分別統(tǒng)計(jì)各區(qū)間范圍內(nèi)預(yù)測(cè)概率和實(shí)際觀測(cè)值的平均值,然后再繪制平均預(yù)測(cè)概率與平均實(shí)際觀測(cè)值間的殘差圖。如果數(shù)據(jù)點(diǎn)大致位于0附近,可以認(rèn)為模型假設(shè)符合要求。
此外,可以通過分箱殘差圖來計(jì)算95%概率范圍內(nèi)殘差數(shù)據(jù)點(diǎn)的分布。原理是:對(duì)于某個(gè)預(yù)測(cè)值,該分箱數(shù)據(jù)區(qū)間內(nèi)的n個(gè)數(shù)據(jù)點(diǎn),取1的數(shù)據(jù)個(gè)數(shù)服從二項(xiàng)分布,從而可以計(jì)算出95%概率范圍數(shù)據(jù)取1的個(gè)數(shù),進(jìn)而計(jì)算出實(shí)際平均值和相應(yīng)的殘差范圍。
2.2 多項(xiàng)邏輯回歸模型
(1) 模型數(shù)學(xué)表達(dá)形式
簡單邏輯回歸只能處理因變量取值為0或1兩個(gè)變量的情形,對(duì)于因變量取值多于2個(gè),需要用到多項(xiàng)式邏輯回歸。比如,對(duì)于5個(gè)類別,數(shù)學(xué)模型如下:

由于對(duì)于每一個(gè)數(shù)據(jù),屬于這5個(gè)類別的概率總和為1,因此,可以將數(shù)據(jù)屬于5個(gè)類別概率表示出來,公式如下,然后應(yīng)用極大似然估計(jì)分別估計(jì)出各參數(shù):

(2) 回歸系數(shù)的解讀
當(dāng)自變量為連續(xù)變量時(shí),回歸系數(shù)表示自變量增加一個(gè)單位時(shí),類別i相對(duì)于參考類別比值的變化(不是類別i概率的變化,而是概率比值的變化,概率比值增加,但是類別i概率可能減小)。當(dāng)自變量為分類變量時(shí),回歸系數(shù)表示相對(duì)于參考變量值,自變量取值為x時(shí)類別i相對(duì)于參考類別比值的變化。由于多項(xiàng)邏輯回歸中,某一類別i的概率除了與當(dāng)前類別回歸系數(shù)有關(guān),還與其他類別回歸系數(shù)有關(guān),因此“除四”法則不再適用。
2.3 定序回歸模型
(1) 模型數(shù)學(xué)表達(dá)形式
定序變量為一種不同類別之間有大小關(guān)系,但不同類別之間距離是不明確的分類變量。即定序變量“只問方向,不問遠(yuǎn)近”。定序回歸模型采用累計(jì)變量概率作為建模的基礎(chǔ)。如果有“非常不滿意”、“不滿意”、“一般”、“滿意”、“非常滿意”共5個(gè)類別,定序回歸的模型表達(dá)式如下:

(2) 回歸模型的解讀
假如建立關(guān)于自變量x1(等待時(shí)間),x2(單人還是多人)兩個(gè)自變量與因變量滿意度p的定序回歸模型,數(shù)學(xué)表達(dá)式如下:


2.4 泊松回歸模型
(1) 模型數(shù)學(xué)表達(dá)形式
泊松回歸用來處理因變量是計(jì)算變量(比如某時(shí)間段內(nèi)事件發(fā)生的次數(shù)、來訪的人數(shù)等)時(shí)建立回歸模型的情形。其數(shù)學(xué)基礎(chǔ)來源于泊松分布:

其中,k為發(fā)生的次數(shù),λ為未知參數(shù),既為平均值,也是其方差。因此,泊松回歸用下式來建立自變量與未知變量的聯(lián)系:

(2) 回歸系數(shù)的解讀
由于模型左邊對(duì)λ做了一個(gè)對(duì)數(shù)變換,因此泊松回歸系數(shù)β表示:在其他變量不變的條件下,自變量增加單位值時(shí),因變量λ是原來的eβ倍,即增加了eβ-1倍。
三、廣義線性回歸模型
無論是多元線性模型、邏輯回歸,還是泊松回歸模型,本質(zhì)上都可以歸一到廣義線性模型之下,模型右側(cè)都可以表示為線性模型,




