《多元統(tǒng)計(jì)分析與R語(yǔ)言建?!吠醣髸?huì) 第四版 第一章
后期會(huì)把每一章的學(xué)習(xí)筆記鏈接加上
Codes, datas, slices and e-book of this book:
鏈接:https://pan.baidu.com/s/16gIeR3xxL1DTGHe2kpP39A
提取碼:jtag
目錄

一、定義
多元統(tǒng)計(jì)分析 是研究多個(gè)隨機(jī)變量之間相互依賴(lài)關(guān)系及其內(nèi)在統(tǒng)計(jì)規(guī)律的一門(mén)學(xué)科
在統(tǒng)計(jì)學(xué)的基本內(nèi)容匯總,只考慮一個(gè)或幾個(gè)因素對(duì)一個(gè)觀(guān)測(cè)指標(biāo)(變量)的影響大小的問(wèn)題,稱(chēng)為一元統(tǒng)計(jì)分析。
若考慮一個(gè)或幾個(gè)因素對(duì)兩個(gè)或兩個(gè)以上觀(guān)測(cè)指標(biāo)(變量)的影響大小的問(wèn)題,或者多個(gè)觀(guān)測(cè)指標(biāo)(變量)的相互依賴(lài)關(guān)系,既稱(chēng)為多元統(tǒng)計(jì)分析。
二、應(yīng)用
1. 變量之間的相依性分析
- 使用簡(jiǎn)單相關(guān)分析、偏相關(guān)分析、復(fù)相關(guān)分析和典型相關(guān)分析技術(shù)
2. 構(gòu)造預(yù)測(cè)模型,進(jìn)行預(yù)報(bào)控制。
有兩大類(lèi),包括:
- 預(yù)測(cè)預(yù)報(bào)模型,通過(guò)采用多元回歸或逐步回歸分析、非線(xiàn)性回歸、判別分析等建模技術(shù)
- 描述性模型,通過(guò)采用綜合評(píng)價(jià)的分析技術(shù)
3. 進(jìn)行數(shù)值分類(lèi),構(gòu)造分類(lèi)模型。
將數(shù)據(jù)歸類(lèi),找出他們之間的聯(lián)系和內(nèi)在規(guī)律。
構(gòu)造分類(lèi)模型一般采用聚類(lèi)分析和判別分析技術(shù)
4. 簡(jiǎn)化系統(tǒng)結(jié)構(gòu),探討系統(tǒng)內(nèi)核
在眾多因素中找出各個(gè)變量中最佳的子集合,根據(jù)子集合所包含的信心描述多元系統(tǒng)的結(jié)果及各個(gè)因子對(duì)系統(tǒng)的影響,舍棄次要因素,以簡(jiǎn)化系統(tǒng)結(jié)構(gòu),認(rèn)識(shí)系統(tǒng)的內(nèi)核(有點(diǎn)做單細(xì)胞降維的意思)
可采用 主成分分析、因子分析、對(duì)應(yīng)分析 等方法。
三、內(nèi)容
多元統(tǒng)計(jì)分析的內(nèi)容主要有:多元數(shù)據(jù)圖示法、多元線(xiàn)性相關(guān)與回歸分析、判別分析、聚類(lèi)分析、主成分分析、因子分析、對(duì)應(yīng)分析及典型相關(guān)分析等。
1. 多元數(shù)據(jù)的數(shù)學(xué)表示
多元數(shù)據(jù)是指具有多個(gè)變量的數(shù)據(jù)。如果將每個(gè)變量看作一個(gè)隨機(jī)向量的話(huà),多個(gè)變量形成的數(shù)據(jù)集將是一個(gè)隨機(jī)矩陣,所以多元數(shù)據(jù)的基本表現(xiàn)形式是一個(gè)矩陣。對(duì)這些數(shù)據(jù)矩陣進(jìn)行數(shù)學(xué)表示是我們的首要任務(wù)。也就是說(shuō),多元數(shù)據(jù)的基本運(yùn)算是矩陣運(yùn)算,而R語(yǔ)言是一個(gè)優(yōu)秀的矩陣運(yùn)算語(yǔ)言,這也是我們應(yīng)用它的一大優(yōu)勢(shì)。
2. 多元數(shù)據(jù)的直觀(guān)分析
直觀(guān)分析即圖示法,是進(jìn)行數(shù)據(jù)分析的重要輔助手段。例如,通過(guò)兩變量的散點(diǎn)圖可以考察異常的觀(guān)察值對(duì)樣本相關(guān)系數(shù)的影響,利用矩陣散點(diǎn)圖可以考察多元之間的關(guān)系,利用多元箱尾圖可以比較幾個(gè)變量的基本統(tǒng)計(jì)量的大小差別。
3. 相關(guān)分析
相關(guān)分析就是通過(guò)對(duì)大量數(shù)字資料的觀(guān)察,消除偶然因素的影響,探求現(xiàn)象之間相關(guān)關(guān)系的密切程度和表現(xiàn)形式。在經(jīng)濟(jì)系統(tǒng)中,各個(gè)經(jīng)濟(jì)變量常常存在內(nèi)在的關(guān)系。例如,經(jīng)濟(jì)增長(zhǎng)與財(cái)政收人、人均收入與消費(fèi)支出等。在這些關(guān)系中,有一些是嚴(yán)格的函數(shù)關(guān)系,這類(lèi)關(guān)系可以用數(shù)學(xué)表達(dá)式表示出來(lái)。還有一些是非確定的關(guān)系,一個(gè)變量產(chǎn)生變動(dòng)會(huì)影響其他變量,使其產(chǎn)生變化。這種變化具有隨機(jī)的特性,但是仍然遵循一定的規(guī)律。函數(shù)關(guān)系很容易解決,而那些非確定的關(guān)系,即相關(guān)關(guān)系,才是我們所關(guān)心的問(wèn)題。
4. 回歸分析
回歸分析研究的主要對(duì)象是客觀(guān)事物變量間的統(tǒng)計(jì)關(guān)系。它是建立在對(duì)客觀(guān)事物進(jìn)行大量實(shí)驗(yàn)和觀(guān)察的基礎(chǔ)上,用來(lái)尋找隱藏在看起來(lái)不確定的現(xiàn)象中的統(tǒng)計(jì)規(guī)律的方法?;貧w分析不僅可以揭示自變量對(duì)因變量的影響大小,還可以用回歸方程進(jìn)行預(yù)測(cè)和控制?;貧w分析的主要研究范圍包括:
(1) 線(xiàn)性回歸模型: 一元線(xiàn)性回歸模型,多元線(xiàn)性回歸模型。
(2) 回歸模型的診斷: 回歸模型基本假設(shè)的合理性,回歸方程擬合效果的判定,選擇回歸函數(shù)的形式。
(3) 廣義線(xiàn)性模型: 含定性變量的回歸,自變量含定性變量,因變量含定性變量。
(4) 非線(xiàn)性回歸模型: 一元非線(xiàn)性回歸,多元非線(xiàn)性回歸。
在實(shí)際研究中,經(jīng)常遇到一個(gè)隨機(jī)變量隨一個(gè)或多個(gè)非隨機(jī)變量的變化而變化的情況,而這種變化關(guān)系明顯呈非線(xiàn)性。怎樣用一個(gè)較好的模型來(lái)表示,然后進(jìn)行估計(jì)與預(yù)測(cè),并對(duì)其非線(xiàn)性進(jìn)行檢驗(yàn)就成為--個(gè)重要的問(wèn)題。在經(jīng)濟(jì)預(yù)測(cè)中,常用多元回歸模型反映預(yù)測(cè)量與各因素之間的依賴(lài)關(guān)系,其中,線(xiàn)性回歸分析有著廣泛的應(yīng)用。但客觀(guān)事物之間并不一定呈線(xiàn)性關(guān)系,在有些情況下,非線(xiàn)性回歸模型更為合適,只是建立起來(lái)較為困難。在實(shí)際的生產(chǎn)過(guò)程中,生產(chǎn)管理目標(biāo)的參量與加工數(shù)量存在相關(guān)關(guān)系。隨著生產(chǎn)和加工數(shù)量的增加,生產(chǎn)管理目標(biāo)的參量(如生產(chǎn)成本和生產(chǎn)工時(shí)等)大多不是簡(jiǎn)單的線(xiàn)性增加,此時(shí),需采用非線(xiàn)性回歸分析進(jìn)行分析。
5. 廣義與一般線(xiàn)性模型
鑒于統(tǒng)計(jì)模型的多樣性和各種模型的適應(yīng)性,針對(duì)因變量和解釋變量的取值性質(zhì),可將統(tǒng)計(jì)模型分為多種類(lèi)型。通常將自變量為定性變量的線(xiàn)性模型稱(chēng)為一般線(xiàn)性模型,如實(shí)驗(yàn)設(shè)計(jì)模型、方差分析模型; 將因變量為非正態(tài)分布的線(xiàn)性模型稱(chēng)為廣義線(xiàn)性模型,如 Logistic回歸模型、對(duì)數(shù)線(xiàn)性模型、Cox比例風(fēng)險(xiǎn)模型。
1972年,Nelder對(duì)經(jīng)典線(xiàn)性回歸模型作了進(jìn)一步的推廣,建立了統(tǒng)一的理論和計(jì)算框架,對(duì)回歸模型在統(tǒng)計(jì)學(xué)中的應(yīng)用產(chǎn)生了重要影響。這種新的線(xiàn)性回歸模型稱(chēng)為廣義線(xiàn)性模型( generalized linear models,GLM)。
廣義線(xiàn)性模型是多元線(xiàn)性回歸模型的推廣,從另一個(gè)角度也可以看作是非線(xiàn)性模型的特例,它們具有--些共性,是其他非線(xiàn)性模型所不具備的。它與典型線(xiàn)性模型的區(qū)別是其隨機(jī)誤差的分布不是正態(tài)分布,與非線(xiàn)性模型的最大區(qū)別則在于非線(xiàn)性模型沒(méi)有明確的隨機(jī)誤差分布假定,而廣義線(xiàn)性模型的隨機(jī)誤差的分布是可以確定的。廣義線(xiàn)性模型不僅包括離散變量,也包括連續(xù)變量。正態(tài)分布也被包括在指數(shù)分布族里,該指數(shù)分布族包含描述發(fā)散狀況的參數(shù),屬于雙參數(shù)指數(shù)分布族。
6. 判別分析
判別分析是多元統(tǒng)計(jì)分析中用于判別樣本所屬類(lèi)型的一種統(tǒng)計(jì)分析方法。所謂判別分析法,是在已知的分類(lèi)之下,一旦有新的樣品時(shí),可以利用此法選定一個(gè)判別標(biāo)準(zhǔn),以判定將該新樣品放置于哪個(gè)類(lèi)別中。判別分析的目的是對(duì)已知分類(lèi)的數(shù)據(jù)建立由數(shù)值指標(biāo)構(gòu)成的分類(lèi)規(guī)則,然后把這樣的規(guī)則應(yīng)用到未知分類(lèi)的樣品中去分類(lèi)。例如,我們獲得了患胃炎的病人和健康人的一些化驗(yàn)指標(biāo),就可以從這些化驗(yàn)指標(biāo)中發(fā)現(xiàn)兩類(lèi)人的區(qū)別。把這種區(qū)別表示為一個(gè)判別公式,然后對(duì)那些被懷疑患胃炎的人就可以根據(jù)其化驗(yàn)指標(biāo)用判別公式來(lái)進(jìn)行輔助診斷。
7. 聚類(lèi)分析
聚類(lèi)分析是研究物以類(lèi)聚的--種現(xiàn)代統(tǒng)計(jì)分析方法。過(guò)去人們主要靠經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)作定性分類(lèi)處理,很少利用數(shù)學(xué)方法,致使許多分類(lèi)帶有主觀(guān)性和任意性,不能很好地揭示客觀(guān)事物內(nèi)在的本質(zhì)差別和聯(lián)系,特別是對(duì)于多因素、多指標(biāo)的分類(lèi)問(wèn)題,定性分類(lèi)更難以實(shí)現(xiàn)準(zhǔn)確分類(lèi)。為了克服定性分類(lèi)的不足,多元統(tǒng)計(jì)分析逐漸被引人到數(shù)值分類(lèi)學(xué)中,形成了聚類(lèi)分析這個(gè)分支。
聚類(lèi)分析是一種分類(lèi)技術(shù),與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應(yīng)用方面取得了很大成功。聚類(lèi)分析與回歸分析、判別分析一起被稱(chēng)為多元分析的三個(gè)主要方法。
8. 主成分分析
在實(shí)際問(wèn)題中,研究多變量問(wèn)題是經(jīng)常遇到的,然而在多數(shù)情況下,不同變量之間有一定相關(guān)性,這必然增加了分析問(wèn)題的復(fù)雜性。主成分分析就是一種通過(guò)降維技術(shù)把多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的統(tǒng)計(jì)分析方法。如何將具有錯(cuò)綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個(gè)較少的成分,使之既有利于對(duì)問(wèn)題進(jìn)行分析和解釋?zhuān)直阌谧プ≈饕茏鞒隹茖W(xué)的評(píng)價(jià),此時(shí)便可以用主成分分析方法。
9. 因子分析
因子分析是主成分分析的推廣,它也是一種把多個(gè)變量化為少數(shù)幾個(gè)綜合變量的多元分析方法,但其目的是用有限個(gè)不可觀(guān)測(cè)的隱變量來(lái)解釋原變量之間的相關(guān)關(guān)系。主成分分析通過(guò)線(xiàn)性組合將原變量綜合成幾個(gè)主成分,用較少的綜合指標(biāo)來(lái)代替原來(lái)較多的指標(biāo)(變量)。在多元分析中,變量間往往存在相關(guān)性,是什么原因使變量間有關(guān)聯(lián)呢? 是否存在不能直接觀(guān)測(cè)到的但影響可觀(guān)測(cè)變量變化的公共因子呢?
因子分析就是尋找這些公共因子的統(tǒng)計(jì)分析方法,它是在主成分的基礎(chǔ)上構(gòu)筑若干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞浚源丝疾煸兞块g的聯(lián)系與區(qū)別。例如,在研究糕點(diǎn)行業(yè)的物價(jià)變動(dòng)中,糕點(diǎn)行業(yè)品種繁多、多到幾百種甚至上千種,但無(wú)論哪種樣式的糕點(diǎn),用料不外乎面粉、食用油、糖等主要原料。那么,面粉、食用油、糖就是眾多糕點(diǎn)的公共因子,各種糕點(diǎn)的物價(jià)變動(dòng)與面粉、食用油、糖的物價(jià)變動(dòng)密切相關(guān),要了解或控制糕點(diǎn)行業(yè)的物價(jià)變動(dòng),只要抓住面粉、食用油和糖的價(jià)格即可。
10. 對(duì)應(yīng)分析
對(duì)應(yīng)分析又稱(chēng)為相應(yīng)分析,由法國(guó)統(tǒng)計(jì)學(xué)家J.P.Beozecri于 1970年提出。對(duì)應(yīng)分析是在因子分析基礎(chǔ)之上發(fā)展起來(lái)的一種多元統(tǒng)計(jì)方法,是Q型和R型因子分析的聯(lián)合應(yīng)用。在經(jīng)濟(jì)管理數(shù)據(jù)的統(tǒng)計(jì)分析中,經(jīng)常要處理三種關(guān)系,即樣品之間的關(guān)系(Q型關(guān)系)、變量間的關(guān)系(R型關(guān)系)以及樣品與變量之間的關(guān)系(對(duì)應(yīng)型關(guān)系)。例如,對(duì)某一行業(yè)所屬的企業(yè)進(jìn)行經(jīng)濟(jì)效益評(píng)價(jià)時(shí),不僅要研究經(jīng)濟(jì)效益指標(biāo)間的關(guān)系,還要將企業(yè)按經(jīng)濟(jì)效益的好壞進(jìn)行分類(lèi),研究哪些企業(yè)與哪些經(jīng)濟(jì)效益指標(biāo)的關(guān)系更密切一些,為決策部門(mén)正確指導(dǎo)企業(yè)的生產(chǎn)經(jīng)營(yíng)活動(dòng)提供更多的信息。這就需要有一種統(tǒng)計(jì)方法,將企業(yè)(樣品〉和指標(biāo)(變量)放在一起進(jìn)行分析、分類(lèi)、作圖,便于作經(jīng)濟(jì)意義.上的解釋。解決這類(lèi)問(wèn)題的統(tǒng)計(jì)方法就是對(duì)應(yīng)分析。
11. 典型相關(guān)分析
在相關(guān)分析中,當(dāng)考察的一組變量?jī)H有兩個(gè)時(shí),可用簡(jiǎn)單相關(guān)系數(shù)來(lái)衡量它們;當(dāng)考察的一組變量有多個(gè)時(shí),可用復(fù)相關(guān)系數(shù)來(lái)衡量它們。大量的實(shí)際問(wèn)題需要我們把指標(biāo)之間的聯(lián)系擴(kuò)展到兩組變量,即兩組隨機(jī)變量之間的相互依賴(lài)關(guān)系。典型相關(guān)分析就是用來(lái)解決此類(lèi)問(wèn)題的一種分析方法。它實(shí)際上是利用主成分的思想來(lái)討論兩組隨機(jī)變量的相關(guān)性問(wèn)題,把兩組變量間的相關(guān)性研究化為少數(shù)幾對(duì)變量之間的相關(guān)性研究,而且這少數(shù)幾對(duì)變量之間又是不相關(guān)的,以此來(lái)達(dá)到化簡(jiǎn)復(fù)雜相關(guān)關(guān)系的目的。
典型相關(guān)分析在經(jīng)濟(jì)管理實(shí)證研究中有著廣泛的應(yīng)用,因?yàn)樵S多經(jīng)濟(jì)現(xiàn)象之間都是多個(gè)變量對(duì)多個(gè)變量的關(guān)系。例如,在研究通貨膨脹的成因時(shí),可把幾個(gè)物價(jià)指數(shù)作為一組變量,把若干個(gè)影響物價(jià)變動(dòng)的因素作為另一組變量,通過(guò)典型相關(guān)分析找出幾對(duì)主要綜合變量,結(jié)合典型相關(guān)系數(shù)對(duì)物價(jià)上漲及通貨膨脹的成因,給出較深刻的分析結(jié)果。
12. 多維標(biāo)度法
多維標(biāo)度分析( multidimensional scaling,MDS)是以空間分布的形式表現(xiàn)對(duì)象之間相似性或親疏關(guān)系的一種多元數(shù)據(jù)分析方法。1958年,Torgerson 在其博士論文中首次正式提出這一方法。MDS分析多見(jiàn)于市場(chǎng)營(yíng)銷(xiāo),近年來(lái)在經(jīng)濟(jì)管理領(lǐng)域的應(yīng)用日趨增多,但國(guó)內(nèi)在這方面的應(yīng)用報(bào)道極少。多維標(biāo)度法通過(guò)一系列技巧,使研究者識(shí)別構(gòu)成受測(cè)者對(duì)樣品的評(píng)價(jià)基礎(chǔ)的關(guān)鍵維數(shù)。例如,多維標(biāo)度法常用于市場(chǎng)研究中,以識(shí)別構(gòu)成顧客對(duì)產(chǎn)品、服務(wù)或者公司的評(píng)價(jià)基礎(chǔ)的關(guān)鍵維數(shù)。其他的應(yīng)用如比較自然屬性(比如食品口味或者不同的氣味),對(duì)政治候選人或事件的了解,甚至評(píng)估不同群體的文化差異。多維標(biāo)度法通過(guò)受測(cè)者所提供的對(duì)樣品的相似性或者偏好的判斷推導(dǎo)出內(nèi)在的維數(shù)。一旦有數(shù)據(jù),多維標(biāo)度法就可以用來(lái)分析:①評(píng)價(jià)樣品時(shí)受測(cè)者用什么維數(shù);②在特定情況下受測(cè)者可能使用多少維數(shù);③每個(gè)維數(shù)的相對(duì)重要性如何;④如何獲得對(duì)樣品關(guān)聯(lián)的感性認(rèn)識(shí)。
13. 綜合評(píng)價(jià)方法
20世紀(jì)七八十年代,是現(xiàn)代科學(xué)評(píng)價(jià)蓬勃興起的年代,在此期間產(chǎn)生了很多種評(píng)價(jià)方法,如ELECTRE法、多維偏好分析的線(xiàn)性規(guī)劃法(LINMAP)、層次分析法(AHP)、數(shù)據(jù)包絡(luò)分析法(EDA)及逼近于理想解的排序法(TOPSIS)等,這些方法到現(xiàn)在已經(jīng)發(fā)展得相對(duì)完善了,而且它們的應(yīng)用也比較廣泛。
而我國(guó)現(xiàn)代科學(xué)評(píng)價(jià)的發(fā)展則是在20世紀(jì)八九十年代,對(duì)評(píng)價(jià)方法及其應(yīng)用的研究也取得了很大的成效,把綜合評(píng)價(jià)方法應(yīng)用到了國(guó)民經(jīng)濟(jì)各個(gè)部門(mén),如可持續(xù)發(fā)展綜合評(píng)價(jià)、小康評(píng)價(jià)體系、現(xiàn)代化指標(biāo)體系及國(guó)際競(jìng)爭(zhēng)力評(píng)價(jià)體系等。
多指標(biāo)綜合評(píng)價(jià)方法具有以下特點(diǎn):包含若干個(gè)指標(biāo),分別說(shuō)明被評(píng)價(jià)對(duì)象的不同方面 ;評(píng)價(jià)方法最終要對(duì)被評(píng)價(jià)對(duì)象作出一個(gè)整體性的評(píng)判,用一個(gè)總指標(biāo)來(lái)說(shuō)明被評(píng)價(jià)對(duì)象的一般水平。
目前常用的綜合評(píng)價(jià)方法較多,如綜合評(píng)分法、綜合指數(shù)法、秩和比法、層次分析法、TOPSIS法、模糊綜合評(píng)判法、數(shù)據(jù)包絡(luò)分析法等。
四、分析工具
R -- 永遠(yuǎn)滴神~