《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

作 ? ?者:經(jīng)管之家、曹正鳳

出版社:電子工業(yè)出版社

版 ? ?次:2015年2月第1次出版

作者簡(jiǎn)介:

經(jīng)管之家:原人大經(jīng)濟(jì)論壇,于2003年成立。經(jīng)管之家從2006年起在國(guó)內(nèi)最早開(kāi)展數(shù)據(jù)分析培訓(xùn)教材,累計(jì)培訓(xùn)學(xué)員數(shù)萬(wàn)人。在大數(shù)據(jù)的趨勢(shì)背景下,創(chuàng)立“CDA數(shù)據(jù)分析師”品牌,致力于為社會(huì)各界數(shù)據(jù)分析愛(ài)好者提供最優(yōu)質(zhì)、最科學(xué)、最系統(tǒng)的數(shù)據(jù)分析教育。

曹正鳳:統(tǒng)計(jì)學(xué)博士,經(jīng)管之家大數(shù)據(jù)中心總工程師,經(jīng)管之家CDA大數(shù)據(jù)分析師培訓(xùn)負(fù)責(zé)人,北京博宇科技有限公司技術(shù)總監(jiān)。致力于大數(shù)據(jù)分析前沿領(lǐng)域研究,主持人大經(jīng)濟(jì)論壇基于Hadoop架構(gòu)的論壇主題歌推薦系統(tǒng)項(xiàng)目。

本書(shū)的重點(diǎn)內(nèi)容和理解:

這是一個(gè)用數(shù)據(jù)說(shuō)話(huà)的時(shí)代,也是一個(gè)依靠數(shù)據(jù)競(jìng)爭(zhēng)的時(shí)代。目前世界500強(qiáng)企業(yè)中,有90%以上都建立了數(shù)據(jù)分析部門(mén)。IBM、微軟、Google等知名公司都積極投資數(shù)據(jù)業(yè)務(wù),建立數(shù)據(jù)部門(mén),培養(yǎng)數(shù)據(jù)分析團(tuán)隊(duì)。各國(guó)政府和越來(lái)越多的企業(yè)意識(shí)到數(shù)據(jù)和信息已經(jīng)成為企業(yè)的智力資產(chǎn)和資源,數(shù)據(jù)的分析和處理能力正在成為日益倚重的技術(shù)手段。

第1章、軟件入門(mén)介紹

1、SPSS與SAS、SYSTAT是世界三大統(tǒng)計(jì)分析軟件。SPSS軟件"社會(huì)科學(xué)統(tǒng)計(jì)軟件包"已有40多年的歷史,全球約有25萬(wàn)產(chǎn)品用戶(hù),遍布于通信、醫(yī)療、銀行、證券、保險(xiǎn)、制造、市場(chǎng)研究、科研教育等行業(yè)。

2、SPSS及菜單。菜單可以生成代碼,也可以直接編碼,實(shí)現(xiàn)菜單和程序做完善結(jié)合。SPSS的主要窗口功能包括:數(shù)據(jù)編輯窗口、結(jié)果輸出窗口、變量編輯器窗口、語(yǔ)法編輯器窗口、圖表編輯窗口。

3、數(shù)據(jù)挖掘的流程介紹

目前應(yīng)用較多的數(shù)據(jù)挖掘流程主要有三種:一是KDD(數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)),二是CRISP-DM(跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)),三是SAS公司提出的SEMMA數(shù)據(jù)挖掘流程。

1)KDD:數(shù)據(jù)挖掘是屬于KDD中最重要的一環(huán),是發(fā)現(xiàn)數(shù)據(jù)中有效的、新奇的、潛在有用的,并被最終形成可理解模式的過(guò)程。

2)CRISP-DM:是一種跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)。其流程為:第一、商業(yè)理解:即期望通過(guò)數(shù)據(jù)挖掘獲得什么;第二、數(shù)據(jù)理解,即訪問(wèn)數(shù)據(jù)及探索數(shù)據(jù);第三、數(shù)據(jù)準(zhǔn)備,是數(shù)據(jù)挖掘最重要的階段之一,實(shí)際的數(shù)據(jù)準(zhǔn)備工作通常占60%~80%的工程時(shí)間和工作量。主要包括合并數(shù)據(jù)集和/或記錄,選擇數(shù)據(jù)子集樣本匯總記錄,導(dǎo)出新的屬性,排序數(shù)據(jù)以便建模,刪除或替換空值或缺失值,分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。第四、建立模型:即根據(jù)需求尋找合適的數(shù)據(jù)挖掘模型;第五、模型評(píng)估:即評(píng)估模型的效果,穩(wěn)定性;第六、方案實(shí)施:將模型發(fā)現(xiàn)的規(guī)則部署到實(shí)際業(yè)務(wù)系統(tǒng)中去。如SPSS系統(tǒng)采用。

3)SEMMA:其數(shù)據(jù)挖掘流程由SAS公司提出。

三種方法都強(qiáng)調(diào)了數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備的過(guò)程,數(shù)據(jù)的預(yù)處理約占數(shù)據(jù)挖掘60%~80%的時(shí)間,數(shù)據(jù)預(yù)處理的好壞直接影響到后續(xù)的建模,本書(shū)將側(cè)重于數(shù)據(jù)準(zhǔn)備的相關(guān)任務(wù)。

第2章 使用數(shù)據(jù)

1、本章主要介紹如何通過(guò)SPSS訪問(wèn)外部數(shù)據(jù),這些數(shù)據(jù)可能是一個(gè)數(shù)據(jù)庫(kù),也可能是一些SPSS文件,或是XLS、TXT等格式的數(shù)據(jù),這是訪問(wèn)外部數(shù)據(jù)后續(xù)進(jìn)行建模分析的基礎(chǔ)。

2、SPSS連接數(shù)據(jù)庫(kù):通過(guò)ODBC(開(kāi)放數(shù)據(jù)庫(kù)連接)進(jìn)行連接。開(kāi)放數(shù)據(jù)庫(kù)互連(ODBC)是Microsoft提出的數(shù)據(jù)庫(kù)訪問(wèn)接口標(biāo)準(zhǔn)。開(kāi)放數(shù)據(jù)庫(kù)互連定義了訪問(wèn)數(shù)據(jù)庫(kù)API的一個(gè)規(guī)范,這些API獨(dú)立于不同廠商的DBMS,也獨(dú)立于具體的編程語(yǔ)言。

3、SPSS數(shù)據(jù)集的定義

1)理解數(shù)據(jù)集的含義:在進(jìn)一步進(jìn)行數(shù)據(jù)分析之前,我們還需要了解數(shù)據(jù)集的基本信息,比如修改日期、屬性、標(biāo)簽等,了解每個(gè)字段的含義、類(lèi)型及相關(guān)的長(zhǎng)度、格式等。

2)商業(yè)背景:如果你是一名數(shù)據(jù)分析的新手,當(dāng)你拿到一些以SAS為格式存儲(chǔ)的文件集時(shí),你應(yīng)該從哪些方面去了解這些數(shù)據(jù),以便為下一步的數(shù)據(jù)分析做好準(zhǔn)備呢?

3)SPSS相關(guān)概念:

A、SPSS創(chuàng)建的文件類(lèi)型主要包括4種,SPSS的數(shù)據(jù)文件,以sav為擴(kuò)展名;SPSS的語(yǔ)法文件以sps為擴(kuò)展名;SPSS的輸出文件,以spv為擴(kuò)展名;SPSS的腳本文件,以sbs為擴(kuò)展名。分別對(duì)應(yīng)于數(shù)據(jù)編輯窗口、語(yǔ)法編輯窗口、結(jié)果管理窗口和腳本窗口。

SPSS是一個(gè)有別于其他文件的特殊格式的文件,SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件,它由數(shù)據(jù)結(jié)構(gòu)和內(nèi)容兩部分組成,其中數(shù)據(jù)結(jié)構(gòu)記錄數(shù)據(jù)變量的名稱(chēng)、類(lèi)型、變量寬度、小數(shù)位數(shù)、變量名標(biāo)簽、變量值標(biāo)簽、缺失值、顯示寬度、對(duì)齊方式和度量尺度等必要信息,數(shù)據(jù)的內(nèi)容才是那些待分析的具體數(shù)據(jù)。

基于上述特點(diǎn),建立SPSS數(shù)據(jù)文件時(shí)應(yīng)完成兩項(xiàng)任務(wù),即描述數(shù)據(jù)的結(jié)構(gòu)和錄入編輯數(shù)據(jù)。

B、SPSS菜單解決方案:代碼本可以用來(lái)對(duì)當(dāng)前文件中的變量信息進(jìn)行描述,并可對(duì)分類(lèi)變量進(jìn)行計(jì)數(shù)和百分比計(jì)算,對(duì)數(shù)值變量進(jìn)行均值、標(biāo)準(zhǔn)差、中位數(shù)、四分位數(shù)間距的計(jì)算。

4、導(dǎo)入其他格式的數(shù)據(jù)文件

5、數(shù)據(jù)來(lái)源

從使用者的角度來(lái)說(shuō),數(shù)據(jù)來(lái)源分為兩種:一種是直接來(lái)源,即通過(guò)使用者的調(diào)查或?qū)嶒?yàn)活動(dòng)直接獲得;二是間接來(lái)源,數(shù)據(jù)由別人通過(guò)調(diào)查或?qū)嶒?yàn)的方式搜索,使用者只能找到他們并加以使用。

1)直接來(lái)源------概率抽樣:依據(jù)隨機(jī)原則,可以用樣本推斷總體,但需要對(duì)總體較為熟悉,調(diào)查成本較高;非概率抽樣優(yōu)點(diǎn)為操作簡(jiǎn)便,時(shí)效快,成本低,適用于探索性研究,為更深入的數(shù)量分析做準(zhǔn)備。缺點(diǎn)是由于不是依據(jù)隨機(jī)原則抽取,無(wú)法使用樣本的結(jié)果對(duì)總體參數(shù)進(jìn)行推斷。

2)間接來(lái)源:二手?jǐn)?shù)據(jù)的特點(diǎn)如下:收集容易,采集成本低;作用廣泛,可以提供研究問(wèn)題的影響、幫助研究者更好地定義問(wèn)題,尋找研究問(wèn)題的思路和途徑。

使用二手?jǐn)?shù)據(jù)時(shí)一定要注意,需要對(duì)數(shù)據(jù)進(jìn)行評(píng)估。數(shù)據(jù)是誰(shuí)收集的?分析搜集者的實(shí)力和可信度;為什么目的而收集的?分析是否與現(xiàn)有的分析目的相吻合;什么時(shí)候收集的?分析數(shù)據(jù)的時(shí)效性,過(guò)時(shí)的數(shù)據(jù)作用也就有限了;數(shù)據(jù)是怎樣收集的?了解數(shù)據(jù)的生產(chǎn)過(guò)程,分析數(shù)據(jù)的質(zhì)量。相對(duì)來(lái)說(shuō),二手?jǐn)?shù)據(jù)容易獲取,一手?jǐn)?shù)據(jù)由于針對(duì)分析目標(biāo)而采集可用性更強(qiáng)。

第3章 探索性數(shù)據(jù)分析及數(shù)據(jù)的清理

1、探索性數(shù)據(jù)分析EDA:它是指對(duì)已有的數(shù)據(jù)在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、函數(shù)擬合、計(jì)算統(tǒng)計(jì)特征量等手段探索數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對(duì)這些數(shù)據(jù)的信息沒(méi)有足夠的經(jīng)驗(yàn),不知道該用體種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時(shí),探索性數(shù)據(jù)分析就會(huì)非常有效。

2、探索性數(shù)據(jù)分析角度:檢驗(yàn)每個(gè)單變量的統(tǒng)計(jì)量;檢驗(yàn)所有類(lèi)型變量的分布及連接性變量的正態(tài)性;計(jì)算順序變量和連續(xù)性變量的相關(guān)系數(shù);檢驗(yàn)異常值;借助散點(diǎn)圖探索變量之間的非線性關(guān)系;檢查每個(gè)變量的缺失值及缺失值的簡(jiǎn)單替換或刪除后所引起的偏差;檢驗(yàn)來(lái)自于同一個(gè)總體的不同樣本假設(shè);檢驗(yàn)變量的交叉分布表;使用多元方法如因子分析、主成分分析等探測(cè)內(nèi)部的結(jié)構(gòu)。

3、SPSS共有三個(gè)菜單命令可以實(shí)現(xiàn),分別是探索、頻數(shù)、描述。

1)探索:可以實(shí)現(xiàn)三項(xiàng)功能。識(shí)別數(shù)據(jù)的分布形式,繪制箱型圖和莖葉圖,反應(yīng)數(shù)據(jù)的分布形式,有助于判斷數(shù)據(jù)中是否包含異常值、影響點(diǎn)和錯(cuò)誤數(shù)據(jù)。正態(tài)性檢驗(yàn)。方差齊性檢驗(yàn)。用Levene檢驗(yàn)比較各組數(shù)據(jù)的方差是否相等,以判定數(shù)據(jù)的離散程度是否存在差異,如進(jìn)行獨(dú)立樣本T檢驗(yàn),就需要事先檢驗(yàn)是否相等,若不相等,則需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換使其方差基本相同。Levene進(jìn)行方差齊性檢驗(yàn)時(shí),不強(qiáng)求數(shù)據(jù)必須服從正態(tài)分布。

4、數(shù)據(jù)清理介紹

1)商業(yè)背景:高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)挖掘的關(guān)鍵。數(shù)據(jù)庫(kù)及日常收集到的數(shù)據(jù)極易受到缺失值、異常值、無(wú)效值、重復(fù)值等不一致數(shù)據(jù)的影響,如果不對(duì)這些數(shù)據(jù)在建模前進(jìn)行恰當(dāng)?shù)奶幚?,極容易產(chǎn)生"gabage in,gabage out",即垃圾進(jìn),垃圾出的結(jié)果,很難得到有用的數(shù)據(jù)挖掘信息。

2)需要清理的數(shù)據(jù)類(lèi)型

A、缺失值。缺失的處理方式:忽略觀測(cè)值,當(dāng)數(shù)據(jù)量較大,而缺失值較少,忽略觀測(cè)值對(duì)分析結(jié)果影響不大時(shí),可以采用這種方式;人工填寫(xiě),找到缺失值的關(guān)系,通過(guò)人工調(diào)查得到并填寫(xiě)缺失值,當(dāng)缺失值量比較大時(shí)不適用;使用一個(gè)全局常量來(lái)填寫(xiě)缺失值;使用屬性的中心度量(如均值和中位數(shù))來(lái)填充缺失值;單獨(dú)作為一類(lèi)。

B、異常值。離群值、極端值。明顯偏大或偏小的值,異常值不一定為錯(cuò)誤值。識(shí)別異常值的常用方法有三種:

第一種方法是為每個(gè)變量設(shè)定一個(gè)正常的取值范圍,然后可以用簡(jiǎn)單的探索性統(tǒng)計(jì)分析進(jìn)行識(shí)別。本方法是簡(jiǎn)單快捷,缺點(diǎn)是只考慮了單個(gè)變量,沒(méi)有考慮變量之間的相互影響。

第二種方法建立在生成數(shù)據(jù)的過(guò)程中是否具有特定函數(shù)形式的模型,如假定服從線性模型,則利用線性模型擬合后,嚴(yán)重偏離模型的即為異常值。本方法的優(yōu)點(diǎn)是考慮了變量之間的相互作用,缺點(diǎn)是需要有一個(gè)事先的假設(shè),若假設(shè)錯(cuò)誤,則有可能誤判的點(diǎn)為異常值。

第三種方法是用聚類(lèi)算法將數(shù)據(jù)分為較小的子集,即簇或者群,只包含較小數(shù)量的觀測(cè)值的群,被認(rèn)定為極端值。聚類(lèi)算法根據(jù)統(tǒng)計(jì)距離指標(biāo)將相似的觀測(cè)值分布在同一個(gè)簇。這個(gè)方法結(jié)合了以上兩個(gè)方法的優(yōu)點(diǎn)。但是在數(shù)據(jù)量較大的情況下,聚類(lèi)對(duì)系統(tǒng)的資源要求比較大。

C、無(wú)效值。在錄入時(shí)導(dǎo)致的錯(cuò)誤,比如性別在錄入時(shí)F代表女,M代表男。但是在錄入時(shí)出現(xiàn)了FM的情況,這種情況就是無(wú)效值。還有數(shù)據(jù)存在有效期,隨著周?chē)闆r的變化,數(shù)據(jù)也會(huì)發(fā)生變化。無(wú)效值的處理方式可以通過(guò)查詢(xún)數(shù)據(jù)來(lái)源、重復(fù)收集等修改為有效值,也可以作為單獨(dú)的一類(lèi)。

D、數(shù)據(jù)的重復(fù)值。對(duì)于有些值,比如ID,根據(jù)數(shù)據(jù)表示的含義,一條記錄代表一個(gè)唯一的ID,但是在數(shù)據(jù)整合過(guò)程中出現(xiàn)了多個(gè)ID,對(duì)于重復(fù)觀測(cè),一般的方式是確定好原因之后刪除。

5、類(lèi)別變量的清理

變量的類(lèi)型分為三類(lèi):類(lèi)型變量、順序變量、數(shù)值變量。

6、數(shù)值型變量的清理

1)缺失值的處理方式:

刪除缺失值:最常用的方式是直接刪除,一般適合于樣本比較小的情況,這種方法的局限性是以丟棄樣本量來(lái)?yè)Q取信息的完備,會(huì)造成信息丟失。

替換缺失值:如用全局平均值或中位數(shù);局部的平均數(shù)或中位數(shù);線性插值;線性趨勢(shì)插值。

缺失值分析:缺失值的描述和快速診斷,生成診斷報(bào)告,包含哪些變量存在缺失,比例為多少,是否與其他變量的取值有關(guān)等。

重復(fù)值處理:

7、正態(tài)分布的驗(yàn)證

1)商業(yè)背景:自然界的多數(shù)自然現(xiàn)象,很多實(shí)驗(yàn)數(shù)據(jù),行為數(shù)據(jù)等都服從正態(tài)分布,很多統(tǒng)計(jì)方法應(yīng)用前提或者效果檢驗(yàn)用到正態(tài)分布的假設(shè)。

2)SPSS菜單解決方案

P-P圖與Q-Q圖:P-P圖是根據(jù)變量的累積概率對(duì)應(yīng)于所指定的理論分布累積概率繪制的散點(diǎn)圖,用于直觀地檢測(cè)樣本數(shù)據(jù)是否符合某一概率分布。如果被檢驗(yàn)的數(shù)據(jù)符合所指定的分布,則代表樣本數(shù)據(jù)的點(diǎn)應(yīng)當(dāng)基本在代表理論分布的對(duì)角線上。P-P圖是用分布的累計(jì)比,而Q-Q圖用的是分布的分位數(shù)來(lái)做檢驗(yàn)。Q-Q圖的結(jié)果與P-P圖相似,如果數(shù)據(jù)為正態(tài)分布,則在Q-Q正態(tài)分布圖中,數(shù)據(jù)點(diǎn)應(yīng)基本在圖中對(duì)角線上。

第4章 數(shù)據(jù)的行處理

1、數(shù)據(jù)篩選:商業(yè)背景:數(shù)據(jù)表中有10個(gè)分店的所有客戶(hù)資料數(shù)據(jù),而你僅需要分析其中位于上海的兩個(gè)分店的年齡介于18~30歲的會(huì)員的消費(fèi)行為數(shù)據(jù),這時(shí)候你就要用到篩選功能。

2、排序與求秩:商業(yè)背景:你需要分析按照購(gòu)買(mǎi)額排序最大的5個(gè)客戶(hù)的特征,或者你需要分析10個(gè)分店中,每個(gè)分店購(gòu)買(mǎi)額最大的5個(gè)(或者前1%)客戶(hù)的特征。

3、抽樣:商業(yè)背景:你有幾百萬(wàn)近一年的購(gòu)買(mǎi)行為數(shù)據(jù),由于購(gòu)買(mǎi)行為較為頻繁,數(shù)據(jù)量較大,分析全國(guó)數(shù)據(jù)較慢,為快速了解數(shù)據(jù)的特征你可以采用抽樣方式。

4、數(shù)據(jù)分組和匯總:商業(yè)背景:你現(xiàn)在有2013.1.1~2013.12.31每個(gè)工作日的銷(xiāo)售數(shù)據(jù),怎樣分析每個(gè)月的銷(xiāo)售變動(dòng)情況?你現(xiàn)在有每個(gè)銷(xiāo)售員的業(yè)績(jī),他們隸屬于15個(gè)銷(xiāo)售團(tuán)隊(duì),怎樣比較這些銷(xiāo)售隊(duì)的業(yè)績(jī)?

第5章 數(shù)據(jù)的列處理

1、計(jì)算新變量:商業(yè)背景:需要在數(shù)據(jù)集中基于現(xiàn)有變量構(gòu)造新變量,以便于更好地分析數(shù)據(jù)。

2、拆分列:商業(yè)背景:假如你現(xiàn)在有每個(gè)銷(xiāo)售員6個(gè)月的銷(xiāo)售數(shù)據(jù),但是這些月份是全部放在一列的,不適合展示和按月對(duì)比。所以需要“重組”.

3、堆疊列:商業(yè)背景:假設(shè)你現(xiàn)在有銷(xiāo)售員6個(gè)月的銷(xiāo)售數(shù)據(jù),每個(gè)月作為一列,為了滿(mǎn)足你的分析目的,你想轉(zhuǎn)換成所有的月份都在一列。和拆分列相反。

4、轉(zhuǎn)置列:為方便分析數(shù)據(jù),將行和列直接轉(zhuǎn)置。

5、對(duì)列重編碼:商業(yè)背景:現(xiàn)在有一列關(guān)于會(huì)員家庭收入的數(shù)據(jù),部分會(huì)員沒(méi)有填寫(xiě),你現(xiàn)在想用其他會(huì)員的平均收入代替缺失值,應(yīng)該如何實(shí)現(xiàn)呢?

重新編碼有三種主要的類(lèi)型:第一、重編碼為相同變量是對(duì)原變量取值進(jìn)行修改,用新編碼直接取代原變量的取值;第二、重編碼為不同變量是將編碼存入新的變量,根據(jù)原始變量的取值生成一個(gè)新變量來(lái)表示分組情況;第三、自動(dòng)編碼。將字符串值或數(shù)字值重新編碼為連續(xù)整數(shù)。字符型變量按照字母順序排列,大寫(xiě)字母排在小寫(xiě)字母前面,缺失值編碼大于任何非缺失值。

6、標(biāo)準(zhǔn)化:商業(yè)背景:在需要用到計(jì)算距離的模型中,距離很容易受到量綱的影響,比如A的身高為185CM,B的身高為160CM,若用厘米做單位兩人身高的差異為25CM,若用米作單位,身高的差異為0.25M,但0.25<25,我們看到單位不同影響了差異的比較,為了消除量綱影響和變量自身差異大小和數(shù)值大小的影響,經(jīng)常將數(shù)據(jù)標(biāo)準(zhǔn)化。

第6章 數(shù)據(jù)集的操作

1、縱向連接:商業(yè)背景:你現(xiàn)在有公司各個(gè)分店會(huì)員客戶(hù)的基本信息,由于每家分店是手工填寫(xiě)的,這些信息散布在不同的表中,為了便于分析,你需要將這些信息整合到一張表中。

縱向連接的五種類(lèi)型:第一、包含A、B中所有的觀測(cè)(含重復(fù));第二、包含A、B中所有的觀測(cè)(不含重復(fù));第三、包含A中所以不在B中的觀測(cè);第四、包含AB共有的觀測(cè);第五、包含B中所有不在A中的觀測(cè)。

注意:第一、縱向連接表中變量不一致。若某個(gè)變量?jī)H存于部分?jǐn)?shù)據(jù)集中,則結(jié)果數(shù)據(jù)集中會(huì)包含此變量,并將不包含此變量的相關(guān)觀測(cè)中的變量置為空缺值。第二、縱向連接表中變量名稱(chēng)、類(lèi)型不一致。要在連接表中直接進(jìn)行變量修改;第三、縱向連接表變量的順序不一致??梢酝ㄟ^(guò)合并參數(shù)的調(diào)整來(lái)順利實(shí)現(xiàn)表的連接。

2、橫向連接:商業(yè)背景:假如你現(xiàn)在需要建立客戶(hù)評(píng)分卡,需要使用客戶(hù)的人口屬性信息、購(gòu)買(mǎi)行為信息等,但這些信息分屬于不同的表或者不同的數(shù)據(jù)庫(kù),在這些表中每個(gè)都有一個(gè)共同的主鍵客戶(hù)ID。

橫向連接的四種類(lèi)型:第一、左聯(lián)接:返回包括左表中的所有記錄和右表中聯(lián)結(jié)字段相等的記錄;第二、右聯(lián)接:返回包括右表中的所有記錄和左表中聯(lián)結(jié)字段相等的記錄;第三、內(nèi)連接:只返回兩個(gè)表中聯(lián)結(jié)字段相等的行;第四、全連接:返回兩個(gè)表中所有的字段。

3、數(shù)據(jù)集的比較:商業(yè)背景:你有一份幾年前的客戶(hù)資料數(shù)據(jù)集,最近市場(chǎng)部分又重新設(shè)計(jì)了表格更新了部分收集字段,讓老客戶(hù)重新進(jìn)行填寫(xiě),形成了一個(gè)新數(shù)據(jù)集。你現(xiàn)在需要快速地了解前后兩個(gè)數(shù)據(jù)集修改了哪些字段,同一個(gè)客戶(hù)的哪些信息變更了。

第7章 數(shù)據(jù)的展示:圖形及報(bào)告的編制

1、數(shù)據(jù)可視化與圖表:你現(xiàn)在有一批數(shù)據(jù),如何形象地探索數(shù)據(jù)及展示數(shù)據(jù)之間的規(guī)律,如何將復(fù)雜的數(shù)據(jù)挖掘結(jié)果清晰地向使用者展示清楚,都需要用到數(shù)據(jù)的可視化及圖表制作。

2、統(tǒng)計(jì)圖分為描述性統(tǒng)計(jì)圖和檢驗(yàn)統(tǒng)計(jì)圖。前者多用于數(shù)據(jù)可視化,是對(duì)代表某業(yè)務(wù)運(yùn)營(yíng)情況的指標(biāo)進(jìn)行圖形描述,主要是對(duì)其分布、比例、趨勢(shì)的描述,大量出現(xiàn)在工作報(bào)告中,比如餅圖、條形圖。后者是對(duì)特定統(tǒng)計(jì)檢驗(yàn)和統(tǒng)計(jì)量的形象展示,僅出現(xiàn)在特定統(tǒng)計(jì)報(bào)告中,一般不在工作報(bào)告中出現(xiàn),比如直方圖、P-P圖、ROC曲線。

3、以數(shù)據(jù)為基礎(chǔ),制作圖表的步驟:1)整理原始數(shù)據(jù)。通過(guò)前面我們介紹的行處理、列處理,將來(lái)自不同數(shù)據(jù)流的數(shù)據(jù)整合成規(guī)整的數(shù)據(jù),是做好后續(xù)數(shù)據(jù)展示的基礎(chǔ)。2)確定要表達(dá)的信息。3)確定比較的類(lèi)型。4)確定圖表的類(lèi)型。

4、數(shù)據(jù)可視化是當(dāng)今數(shù)據(jù)挖掘的一個(gè)熱門(mén)方向。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容