說(shuō)明:非原創(chuàng),借鑒網(wǎng)上多方材料整理,其中包括CSDN博主路易三十六,TOMOCAT及百度資源整合做的一份學(xué)習(xí)筆記,與大家共享。
一、定義
判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法。
二、判別分析的一般形式
y=a1x1+a2x2+……+anxn(a1為系數(shù),Xn為變量)。事先非常明確共有幾個(gè)類別,目的是從已知樣本中訓(xùn)練出判別函數(shù)
三、前提假設(shè)(有點(diǎn)類似多重回歸分析)
1.各自變量為連續(xù)性或有序分類變量
2.自變量和因變量符合線性假設(shè)
3.各組的協(xié)方差矩陣相等,類似與方差分析中的方差齊
4.變量間獨(dú)立,無(wú)共線性
注:違反條件影響也不大,主要看預(yù)測(cè)準(zhǔn)不準(zhǔn),準(zhǔn)的話違反也無(wú)所謂
四、用途
1.對(duì)客戶進(jìn)行信用預(yù)測(cè);2.尋找潛在客戶等
五、判別分析常用判別方法
1.最大似然法
適用于自變量均為分類變量的情況,算出這些情況的概率組合,基于這些組合大小進(jìn)行判別
2.距離判別
對(duì)新樣品求出他們離各個(gè)類別重心的距離遠(yuǎn)近,適用于自變量均為連續(xù)變量的情況,對(duì)變量分布類型無(wú)嚴(yán)格要求
3.Fisher判別法
與主成份分析有關(guān),對(duì)分布、方差等都沒(méi)有什么限制,按照類別與類別差異最大原則提取公因子然后使用公因子判別
4.Bayes判別
強(qiáng)項(xiàng)是進(jìn)行多類判別,要求總體呈多元正態(tài)分布。利用貝葉斯公式,概率分布邏輯衍生出來(lái)一個(gè)判別方法,計(jì)算這個(gè)樣本落入這個(gè)類別的概率,概率最大就被歸為一類
在spss中一般用Fisher判別即可,要考慮概率及誤判損失最小的用Bayes判別,但變量較多時(shí),一般先進(jìn)行逐步判別篩選出有統(tǒng)計(jì)意義的變量,但通常在判別分析前我們已經(jīng)做了相關(guān)的預(yù)分析,所以不推薦使用逐步判別分析(采用步進(jìn)法讓自變量逐個(gè)嘗試進(jìn)入函數(shù)式,如果進(jìn)入到函數(shù)式中的自變量符合條件,則保留在函數(shù)式中,否則,將從函數(shù)式中剔除)。
六、聚類分析與判別分析的區(qū)別與聯(lián)系
都是研究分類的。聚類分析,對(duì)總體到底有幾種類型不知道(研究分幾類較為合適需從計(jì)算中加以調(diào)整)。判別分析則是在總體類型劃分已知,對(duì)當(dāng)前新樣本判斷它們屬于哪個(gè)總體。如我們對(duì)研究的多元數(shù)據(jù)的特征不熟悉,當(dāng)然要進(jìn)行聚類分析,才能考慮判別分析問(wèn)題。
七、判別分析得到的判別函數(shù)效果評(píng)判方法
1.自身驗(yàn)證(拿訓(xùn)練數(shù)據(jù)直接預(yù)測(cè)驗(yàn)證,但是對(duì)預(yù)測(cè)樣本預(yù)測(cè)好不代表對(duì)新樣本預(yù)測(cè)好)
2.外部數(shù)據(jù)驗(yàn)證(收集新的數(shù)據(jù)來(lái)驗(yàn)證,這是最客觀最有效的,但是麻煩而且兩次收集的數(shù)據(jù)不一定是同質(zhì)的)
3.樣本二分法(一般劃分2/3為訓(xùn)練集,1/3為驗(yàn)證集,但是浪費(fèi)了1/3的樣本)
4.交互驗(yàn)證(Cross-Validation)----刀切法(10分法,數(shù)據(jù)劃分為10個(gè)集合,每次挑選一個(gè)出來(lái)做驗(yàn)證集,其余9個(gè)做訓(xùn)練集,可以做10次,因?yàn)轵?yàn)證集可換10種可能)
在spss軟件中通過(guò)【分析】—【留一分類】獲得此項(xiàng)結(jié)論。
下面采用實(shí)例來(lái)說(shuō)明。
一、問(wèn)題描述
如下圖-1數(shù)據(jù)集包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長(zhǎng)、寬和花瓣長(zhǎng)、寬,分析目的是希望能夠使用這4個(gè)變量來(lái)對(duì)花的種類進(jìn)行區(qū)分。spno為事先的分組,度量標(biāo)準(zhǔn)設(shè)為【名義】。

二、數(shù)據(jù)預(yù)處理
主要是對(duì)假設(shè)條件的檢驗(yàn),在spss中【分析】—【描述統(tǒng)計(jì)】—【描述】,如圖-2


如圖-3可以看到數(shù)據(jù)的分布沒(méi)有特別的離異點(diǎn),也沒(méi)有缺失值和不合理的分布,從而可以用該數(shù)據(jù)做接下來(lái)的判別分析。
三、spss操作
1)選擇分類變量及其范圍:如圖-4所示

【分組變量】矩形框中選擇表明已知的觀測(cè)量所屬類別的變量(一定是離散變量),在定義范圍框最小值中輸入該分類變量的最小值,最大框中輸入該分類變量的最大值。
2)? ? 指定判別分析的自變量
3) 選擇觀測(cè)量
如果希望使用一部分觀測(cè)量進(jìn)行判別函數(shù)的推導(dǎo)而且有一個(gè)變量的某個(gè)值可以作為這些觀測(cè)量的標(biāo)識(shí),則用Select 功能進(jìn)行選擇,鍵入標(biāo)識(shí)參與分析的觀測(cè)量所具有的該變量值,一般均使用數(shù)據(jù)文件中的所有合法觀測(cè)量此步驟可以省略。
4) 選擇分析方法:如圖-5所示

【一起輸入自變量】選項(xiàng),當(dāng)認(rèn)為所有自變量都能對(duì)觀測(cè)量特性提供豐富的信息時(shí),使用該選擇項(xiàng)。選擇該項(xiàng)將不加選擇地使用所有自變量進(jìn)行判別分析,建立全模型,不需要進(jìn)一步進(jìn)行選擇。
【使用步進(jìn)式方法】選項(xiàng),當(dāng)不認(rèn)為所有自變量都能對(duì)觀測(cè)量特性提供豐富的信息時(shí),使用該選擇項(xiàng)。因此需要判別貢獻(xiàn)的大小,再進(jìn)行選擇當(dāng)鼠標(biāo)單擊該項(xiàng)時(shí)【方法】按鈕加亮,可以進(jìn)一步選擇判別分析方法。一般我們做判別分析前已經(jīng)做了相關(guān)的預(yù)分析(不推薦)。

如圖-6所示【方法】選項(xiàng):步進(jìn)法讓自變量逐個(gè)嘗試進(jìn)入函數(shù)式,如果進(jìn)入到函數(shù)式中的自變量符合條件,則保留在函數(shù)式中,否則,將從函數(shù)式中剔除。可供選擇的判別分析方法有:
1.Wilks'lambda 選項(xiàng),它是組內(nèi)平方和與總平方和之比,用于描述各組的均值是否存在顯著差別,當(dāng)所有觀測(cè)組的均值都相等時(shí),Wilks’lambda值為1;當(dāng)組內(nèi)變異與總變異相比很小時(shí),表示組件變異較大,表示組間變異較大,系數(shù)接近于0。系統(tǒng)默認(rèn)選項(xiàng)。
2.未解釋方差。 它指把計(jì)算殘余最小的自變量?jī)?yōu)先納入到判別函數(shù)式中。
3.Mahalanobis’距離 。它把每步都使靠得最近的兩類間的馬氏距離最大的變量進(jìn)入判別函數(shù)
4.最小 F值。它把方差差異最大的自變量?jī)?yōu)先納入到判別函數(shù)中。
5.Rao’s V 。勞氏增值法:它把勞氏統(tǒng)計(jì)量V產(chǎn)生最大增值的自變量?jī)?yōu)先納入到判別函數(shù)中。可以對(duì)一個(gè)要加入到模型中的變量的V 值指定一個(gè)最小增量。選擇此種方法后,應(yīng)該在該項(xiàng)下面的V-to-enter 后的矩形框中輸入這個(gè)增量的指定值。當(dāng)某變量導(dǎo)致的V值增量大于指定值的變量后進(jìn)入判別函數(shù)。
【標(biāo)準(zhǔn)】:選擇逐步判別停止的判據(jù)
1.使用F值。系統(tǒng)默認(rèn)的判據(jù)。當(dāng)加人一個(gè)變量(或剔除一個(gè)變量)后,對(duì)在判別函數(shù)中的變量進(jìn)行方差分析。當(dāng)計(jì)算的F值大于指定的進(jìn)入值時(shí),該變量保留在函數(shù)中。默認(rèn)值是3.84:當(dāng)該變量使計(jì)算的F值小于指定的刪除值時(shí),該變量從函數(shù)中剔除。默認(rèn)值為2.71。即當(dāng)被加入的變量F 值為3.84 時(shí)才把該變量加入到模型中,否則變量不能進(jìn)入模型;或者,當(dāng)要從模型中移出的變量F值<2.71時(shí),該變量才被移出模型,否則模型中的變量不會(huì)被移出.設(shè)置這兩個(gè)值時(shí)應(yīng)該注意進(jìn)入值>刪除值。
2.使用F檢的概率。決定變量是否加入函數(shù)或被剔除的概率而不是用F值。加入變量的F值概率的默認(rèn)值是0.05(5%),移出變量的F值概率是0.10(10%)。刪除值(移出變量的F值概率) >進(jìn)入值(加入變量的F值概率)。
【輸出】:對(duì)于逐步選擇變量的過(guò)程和最后結(jié)果的顯示可以通過(guò)輸出欄中的兩項(xiàng)進(jìn)行選擇:
1.步進(jìn)摘要。要求在逐步選擇變量過(guò)程中的每一步之后顯示每個(gè)變量的統(tǒng)計(jì)量。
2.兩兩組間距離的F值。要求顯示兩兩類之間的兩兩F值矩陣。
這里我們選擇建立全模型,所以不用對(duì)方法進(jìn)行設(shè)置。

如圖-7所示【statistics】選項(xiàng):可以選擇的輸出統(tǒng)計(jì)量分為以下3 類:
(1) 描述性
1.平均值??梢暂敵龈黝愔懈髯宰兞康木怠?biāo)準(zhǔn)差和各自變量總樣本的均值和標(biāo)準(zhǔn)差。
2.單變量ANOVA復(fù)選項(xiàng)。對(duì)各類中同一自變量均值都相等的假設(shè)進(jìn)行檢驗(yàn),輸出單變量的方差分析結(jié)果。
3.Box’s M 復(fù)選項(xiàng)。對(duì)各組的協(xié)方差矩陣相等的假設(shè)進(jìn)行檢驗(yàn)。如果樣本足夠大,差異不顯著的p值表明矩陣差異不明顯。
(2)函數(shù)系數(shù)欄:選擇判別函數(shù)系數(shù)的輸出形式
1.Fisherh’s。給出Bayes判別函數(shù)的系數(shù)。對(duì)每一類給出一組系數(shù),并給出該組中判別分?jǐn)?shù)最大的觀測(cè)量。(注意:這個(gè)選項(xiàng)不是要給出Fisher判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之所以為Fisher’s,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由Fisher提出來(lái)的。這里極易混淆,請(qǐng)注意辨別。)
2.未標(biāo)準(zhǔn)化。給出未標(biāo)準(zhǔn)化的判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認(rèn)給出標(biāo)準(zhǔn)化的判別函數(shù)信息)。
(3)矩陣
1.組內(nèi)相關(guān)。即類內(nèi)相關(guān)矩陣,它是根據(jù)在計(jì)算相關(guān)矩陣之前將各組(類)協(xié)方差矩陣平均后計(jì)算類內(nèi)相關(guān)矩陣。
2.組內(nèi)協(xié)方差。即計(jì)算并顯示合并類內(nèi)協(xié)方差矩陣,是將各組(類)協(xié)方差矩陣平均后計(jì)算的。區(qū)別于總協(xié)方差陣。
3.分組協(xié)方差。對(duì)每類輸出顯示一個(gè)協(xié)方差矩陣。
4.總體協(xié)方差。計(jì)算并顯示總樣本的協(xié)方差矩陣。

如圖-8所示【分類】選項(xiàng):
(1) 先驗(yàn)概率:兩者選其一
1.所有組相等。各類先驗(yàn)概率相等。若分為m類,則各類先驗(yàn)概率均為1/m。系統(tǒng)默認(rèn)
2.根據(jù)組大小計(jì)算。由各類的樣本量計(jì)算決定,即各類的先驗(yàn)概率與其樣本量成正比。
(2) 使用協(xié)方差矩陣 :選擇分類使用的協(xié)方差矩陣
1.在組內(nèi)。指定使用合并組內(nèi)協(xié)方差矩陣進(jìn)行分類。系統(tǒng)默認(rèn)
2.分組。指定使用各組協(xié)方差矩陣進(jìn)行分類。
由于分類是根據(jù)判別函數(shù),而不是根據(jù)原始變量,因此該選擇項(xiàng)不是總等價(jià)于二次判別。
(3) 圖:選擇要求輸出的統(tǒng)計(jì)圖
1.合并組。生成一張包括各類的散點(diǎn)圖。該散點(diǎn)圖是根據(jù)前兩個(gè)判別函數(shù)值作的散點(diǎn)圖。如果只有一個(gè)判別函數(shù)就輸出直方圖。
2.分組。根據(jù)前兩個(gè)判別函數(shù)值對(duì)每一類生成一張激點(diǎn)圖,共分為幾類就生成幾張散點(diǎn)圖。如果只有一個(gè)判別函數(shù)就輸出直方圖。
3.區(qū)域圖。生成用于根據(jù)函數(shù)值把觀測(cè)量分到各組中去的邊界圖。此種統(tǒng)計(jì)圖把一張圖的平面劃分出與類數(shù)相同的區(qū)域。每一類占據(jù)一個(gè)區(qū)各類的均值在各區(qū)中用*號(hào)標(biāo)出。如果僅有一個(gè)判別函數(shù),則不作此圖。
(4) 輸出欄:選擇生成到輸出窗中的分類結(jié)果
1.個(gè)案摘要。要求輸出每個(gè)觀測(cè)量包括判別分?jǐn)?shù)、實(shí)際類、預(yù)測(cè)類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗(yàn)概率等。選擇此項(xiàng)還可以選擇其附屬選擇項(xiàng):將個(gè)案限制在前,并在后面的小矩形框中輸入觀測(cè)量數(shù)n選擇。此項(xiàng)則僅對(duì)前n個(gè)觀測(cè)量輸出分類結(jié)果。觀測(cè)數(shù)量大時(shí)可以選擇此項(xiàng)。
2.摘要表。要求輸出分類的小結(jié),給出正確分類觀測(cè)量數(shù)(原始類和根據(jù)判別函數(shù)計(jì)算的預(yù)測(cè)類相同)和錯(cuò)分觀測(cè)量數(shù)和錯(cuò)分率。
3.不考慮該個(gè)案時(shí)的分類(留一分類)。輸出對(duì)每個(gè)觀測(cè)量進(jìn)行分類的結(jié)果,所依據(jù)的判別是由除該觀測(cè)量以外的其他觀測(cè)量導(dǎo)出的,也稱為交互校驗(yàn)結(jié)果。建議勾選
(5)使用均值替換缺失值:即用該類變量的均值代替缺失值。缺失值缺失大于10%,不介意勾選
本例中如圖-8中勾選。

如圖-9所示【保存】選項(xiàng):指定生成并保存在數(shù)據(jù)文件中的新變量
1.預(yù)測(cè)組成員。要求建立一個(gè)新變量,預(yù)測(cè)觀測(cè)量的分類。是根據(jù)判別分?jǐn)?shù)把觀測(cè)量按后驗(yàn)概率最大指派所屬的類。每運(yùn)行一次Discriminant過(guò)程,就建立一個(gè)表明使用判別函數(shù)預(yù)測(cè)各觀測(cè)量屬于哪一類的新變量。第1 次運(yùn)行建立新變量的變量名為dis_l,如果在工作數(shù)據(jù)文件中不把前一次建立的新變量刪除,第n次運(yùn)行Descriminant 過(guò)程建立的新變量默認(rèn)的變量名為dis_n。
2.判別分?jǐn)?shù)。要求建立fisher判別分?jǐn)?shù)的新變量。該分?jǐn)?shù)是由未標(biāo)準(zhǔn)化的判別系數(shù)乘自變量的值,將這些乘積求和后加上常數(shù)得來(lái)。每次運(yùn)行Discriminant過(guò)程都給出一組表明判別分?jǐn)?shù)的新變量,建立幾個(gè)判別函數(shù)就有幾個(gè)判別分?jǐn)?shù)變量。
3. 組成員概率。Bayes后驗(yàn)概率值。有m類,對(duì)一個(gè)觀測(cè)量就會(huì)給出m個(gè)概率值,因此建立m個(gè)新變量。
本例不勾選。
四、輸出結(jié)果











下面為最重要的結(jié)果,可在撰寫結(jié)論使用。

