久久青青欧美亚洲,久久国产中文字幕

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

作 ? ?者：經(jīng)管之家、曹正鳳

出版社：電子工業(yè)出版社

版 ? ?次：2015年2月第1次出版

作者簡(jiǎn)介：

經(jīng)管之家：原人大經(jīng)濟(jì)論壇，于2003年成立。經(jīng)管之家從2006年起在國(guó)內(nèi)最早開(kāi)展數(shù)據(jù)分析培訓(xùn)教材，累計(jì)培訓(xùn)學(xué)員數(shù)萬(wàn)人。在大數(shù)據(jù)的趨勢(shì)背景下，創(chuàng)立“CDA數(shù)據(jù)分析師”品牌，致力于為社會(huì)各界數(shù)據(jù)分析愛(ài)好者提供最優(yōu)質(zhì)、最科學(xué)、最系統(tǒng)的數(shù)據(jù)分析教育。

曹正鳳：統(tǒng)計(jì)學(xué)博士，經(jīng)管之家大數(shù)據(jù)中心總工程師，經(jīng)管之家CDA大數(shù)據(jù)分析師培訓(xùn)負(fù)責(zé)人，北京博宇科技有限公司技術(shù)總監(jiān)。致力于大數(shù)據(jù)分析前沿領(lǐng)域研究，主持人大經(jīng)濟(jì)論壇基于Hadoop架構(gòu)的論壇主題歌推薦系統(tǒng)項(xiàng)目。

本書(shū)的重點(diǎn)內(nèi)容和理解：

這是一個(gè)用數(shù)據(jù)說(shuō)話(huà)的時(shí)代，也是一個(gè)依靠數(shù)據(jù)競(jìng)爭(zhēng)的時(shí)代。目前世界500強(qiáng)企業(yè)中，有90%以上都建立了數(shù)據(jù)分析部門(mén)。IBM、微軟、Google等知名公司都積極投資數(shù)據(jù)業(yè)務(wù)，建立數(shù)據(jù)部門(mén)，培養(yǎng)數(shù)據(jù)分析團(tuán)隊(duì)。各國(guó)政府和越來(lái)越多的企業(yè)意識(shí)到數(shù)據(jù)和信息已經(jīng)成為企業(yè)的智力資產(chǎn)和資源，數(shù)據(jù)的分析和處理能力正在成為日益倚重的技術(shù)手段。

第1章、軟件入門(mén)介紹

1、SPSS與SAS、SYSTAT是世界三大統(tǒng)計(jì)分析軟件。SPSS軟件"社會(huì)科學(xué)統(tǒng)計(jì)軟件包"已有40多年的歷史，全球約有25萬(wàn)產(chǎn)品用戶(hù)，遍布于通信、醫(yī)療、銀行、證券、保險(xiǎn)、制造、市場(chǎng)研究、科研教育等行業(yè)。

2、SPSS及菜單。菜單可以生成代碼，也可以直接編碼，實(shí)現(xiàn)菜單和程序做完善結(jié)合。SPSS的主要窗口功能包括：數(shù)據(jù)編輯窗口、結(jié)果輸出窗口、變量編輯器窗口、語(yǔ)法編輯器窗口、圖表編輯窗口。

3、數(shù)據(jù)挖掘的流程介紹

目前應(yīng)用較多的數(shù)據(jù)挖掘流程主要有三種：一是KDD（數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)），二是CRISP-DM（跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)），三是SAS公司提出的SEMMA數(shù)據(jù)挖掘流程。

1）KDD：數(shù)據(jù)挖掘是屬于KDD中最重要的一環(huán)，是發(fā)現(xiàn)數(shù)據(jù)中有效的、新奇的、潛在有用的，并被最終形成可理解模式的過(guò)程。

2）CRISP-DM：是一種跨行業(yè)的數(shù)據(jù)挖掘標(biāo)準(zhǔn)。其流程為：第一、商業(yè)理解：即期望通過(guò)數(shù)據(jù)挖掘獲得什么；第二、數(shù)據(jù)理解，即訪問(wèn)數(shù)據(jù)及探索數(shù)據(jù)；第三、數(shù)據(jù)準(zhǔn)備，是數(shù)據(jù)挖掘最重要的階段之一，實(shí)際的數(shù)據(jù)準(zhǔn)備工作通常占60%~80%的工程時(shí)間和工作量。主要包括合并數(shù)據(jù)集和/或記錄，選擇數(shù)據(jù)子集樣本匯總記錄，導(dǎo)出新的屬性，排序數(shù)據(jù)以便建模，刪除或替換空值或缺失值，分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。第四、建立模型：即根據(jù)需求尋找合適的數(shù)據(jù)挖掘模型；第五、模型評(píng)估：即評(píng)估模型的效果，穩(wěn)定性；第六、方案實(shí)施：將模型發(fā)現(xiàn)的規(guī)則部署到實(shí)際業(yè)務(wù)系統(tǒng)中去。如SPSS系統(tǒng)采用。

3）SEMMA：其數(shù)據(jù)挖掘流程由SAS公司提出。

三種方法都強(qiáng)調(diào)了數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備的過(guò)程，數(shù)據(jù)的預(yù)處理約占數(shù)據(jù)挖掘60%~80%的時(shí)間，數(shù)據(jù)預(yù)處理的好壞直接影響到后續(xù)的建模，本書(shū)將側(cè)重于數(shù)據(jù)準(zhǔn)備的相關(guān)任務(wù)。

第2章使用數(shù)據(jù)

1、本章主要介紹如何通過(guò)SPSS訪問(wèn)外部數(shù)據(jù)，這些數(shù)據(jù)可能是一個(gè)數(shù)據(jù)庫(kù)，也可能是一些SPSS文件，或是XLS、TXT等格式的數(shù)據(jù)，這是訪問(wèn)外部數(shù)據(jù)后續(xù)進(jìn)行建模分析的基礎(chǔ)。

2、SPSS連接數(shù)據(jù)庫(kù)：通過(guò)ODBC（開(kāi)放數(shù)據(jù)庫(kù)連接）進(jìn)行連接。開(kāi)放數(shù)據(jù)庫(kù)互連（ODBC）是Microsoft提出的數(shù)據(jù)庫(kù)訪問(wèn)接口標(biāo)準(zhǔn)。開(kāi)放數(shù)據(jù)庫(kù)互連定義了訪問(wèn)數(shù)據(jù)庫(kù)API的一個(gè)規(guī)范，這些API獨(dú)立于不同廠商的DBMS，也獨(dú)立于具體的編程語(yǔ)言。

3、SPSS數(shù)據(jù)集的定義

1）理解數(shù)據(jù)集的含義：在進(jìn)一步進(jìn)行數(shù)據(jù)分析之前，我們還需要了解數(shù)據(jù)集的基本信息，比如修改日期、屬性、標(biāo)簽等，了解每個(gè)字段的含義、類(lèi)型及相關(guān)的長(zhǎng)度、格式等。

2）商業(yè)背景：如果你是一名數(shù)據(jù)分析的新手，當(dāng)你拿到一些以SAS為格式存儲(chǔ)的文件集時(shí)，你應(yīng)該從哪些方面去了解這些數(shù)據(jù)，以便為下一步的數(shù)據(jù)分析做好準(zhǔn)備呢？

3）SPSS相關(guān)概念：

A、SPSS創(chuàng)建的文件類(lèi)型主要包括4種，SPSS的數(shù)據(jù)文件，以sav為擴(kuò)展名；SPSS的語(yǔ)法文件以sps為擴(kuò)展名；SPSS的輸出文件，以spv為擴(kuò)展名；SPSS的腳本文件，以sbs為擴(kuò)展名。分別對(duì)應(yīng)于數(shù)據(jù)編輯窗口、語(yǔ)法編輯窗口、結(jié)果管理窗口和腳本窗口。

SPSS是一個(gè)有別于其他文件的特殊格式的文件，SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件，它由數(shù)據(jù)結(jié)構(gòu)和內(nèi)容兩部分組成，其中數(shù)據(jù)結(jié)構(gòu)記錄數(shù)據(jù)變量的名稱(chēng)、類(lèi)型、變量寬度、小數(shù)位數(shù)、變量名標(biāo)簽、變量值標(biāo)簽、缺失值、顯示寬度、對(duì)齊方式和度量尺度等必要信息，數(shù)據(jù)的內(nèi)容才是那些待分析的具體數(shù)據(jù)。

基于上述特點(diǎn)，建立SPSS數(shù)據(jù)文件時(shí)應(yīng)完成兩項(xiàng)任務(wù)，即描述數(shù)據(jù)的結(jié)構(gòu)和錄入編輯數(shù)據(jù)。

B、SPSS菜單解決方案：代碼本可以用來(lái)對(duì)當(dāng)前文件中的變量信息進(jìn)行描述，并可對(duì)分類(lèi)變量進(jìn)行計(jì)數(shù)和百分比計(jì)算，對(duì)數(shù)值變量進(jìn)行均值、標(biāo)準(zhǔn)差、中位數(shù)、四分位數(shù)間距的計(jì)算。

4、導(dǎo)入其他格式的數(shù)據(jù)文件

5、數(shù)據(jù)來(lái)源

從使用者的角度來(lái)說(shuō)，數(shù)據(jù)來(lái)源分為兩種：一種是直接來(lái)源，即通過(guò)使用者的調(diào)查或?qū)嶒?yàn)活動(dòng)直接獲得；二是間接來(lái)源，數(shù)據(jù)由別人通過(guò)調(diào)查或?qū)嶒?yàn)的方式搜索，使用者只能找到他們并加以使用。

1）直接來(lái)源------概率抽樣：依據(jù)隨機(jī)原則，可以用樣本推斷總體，但需要對(duì)總體較為熟悉，調(diào)查成本較高；非概率抽樣優(yōu)點(diǎn)為操作簡(jiǎn)便，時(shí)效快，成本低，適用于探索性研究，為更深入的數(shù)量分析做準(zhǔn)備。缺點(diǎn)是由于不是依據(jù)隨機(jī)原則抽取，無(wú)法使用樣本的結(jié)果對(duì)總體參數(shù)進(jìn)行推斷。

2）間接來(lái)源：二手?jǐn)?shù)據(jù)的特點(diǎn)如下：收集容易，采集成本低；作用廣泛，可以提供研究問(wèn)題的影響、幫助研究者更好地定義問(wèn)題，尋找研究問(wèn)題的思路和途徑。

使用二手?jǐn)?shù)據(jù)時(shí)一定要注意，需要對(duì)數(shù)據(jù)進(jìn)行評(píng)估。數(shù)據(jù)是誰(shuí)收集的？分析搜集者的實(shí)力和可信度；為什么目的而收集的？分析是否與現(xiàn)有的分析目的相吻合；什么時(shí)候收集的？分析數(shù)據(jù)的時(shí)效性，過(guò)時(shí)的數(shù)據(jù)作用也就有限了；數(shù)據(jù)是怎樣收集的？了解數(shù)據(jù)的生產(chǎn)過(guò)程，分析數(shù)據(jù)的質(zhì)量。相對(duì)來(lái)說(shuō)，二手?jǐn)?shù)據(jù)容易獲取，一手?jǐn)?shù)據(jù)由于針對(duì)分析目標(biāo)而采集可用性更強(qiáng)。

第3章探索性數(shù)據(jù)分析及數(shù)據(jù)的清理

1、探索性數(shù)據(jù)分析EDA：它是指對(duì)已有的數(shù)據(jù)在盡量少的先驗(yàn)假定下進(jìn)行探索，通過(guò)作圖、制表、函數(shù)擬合、計(jì)算統(tǒng)計(jì)特征量等手段探索數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對(duì)這些數(shù)據(jù)的信息沒(méi)有足夠的經(jīng)驗(yàn)，不知道該用體種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時(shí)，探索性數(shù)據(jù)分析就會(huì)非常有效。

2、探索性數(shù)據(jù)分析角度：檢驗(yàn)每個(gè)單變量的統(tǒng)計(jì)量；檢驗(yàn)所有類(lèi)型變量的分布及連接性變量的正態(tài)性；計(jì)算順序變量和連續(xù)性變量的相關(guān)系數(shù)；檢驗(yàn)異常值；借助散點(diǎn)圖探索變量之間的非線性關(guān)系；檢查每個(gè)變量的缺失值及缺失值的簡(jiǎn)單替換或刪除后所引起的偏差；檢驗(yàn)來(lái)自于同一個(gè)總體的不同樣本假設(shè)；檢驗(yàn)變量的交叉分布表；使用多元方法如因子分析、主成分分析等探測(cè)內(nèi)部的結(jié)構(gòu)。

3、SPSS共有三個(gè)菜單命令可以實(shí)現(xiàn)，分別是探索、頻數(shù)、描述。

1）探索：可以實(shí)現(xiàn)三項(xiàng)功能。識(shí)別數(shù)據(jù)的分布形式，繪制箱型圖和莖葉圖，反應(yīng)數(shù)據(jù)的分布形式，有助于判斷數(shù)據(jù)中是否包含異常值、影響點(diǎn)和錯(cuò)誤數(shù)據(jù)。正態(tài)性檢驗(yàn)。方差齊性檢驗(yàn)。用Levene檢驗(yàn)比較各組數(shù)據(jù)的方差是否相等，以判定數(shù)據(jù)的離散程度是否存在差異，如進(jìn)行獨(dú)立樣本T檢驗(yàn)，就需要事先檢驗(yàn)是否相等，若不相等，則需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換使其方差基本相同。Levene進(jìn)行方差齊性檢驗(yàn)時(shí)，不強(qiáng)求數(shù)據(jù)必須服從正態(tài)分布。

4、數(shù)據(jù)清理介紹

1）商業(yè)背景：高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)挖掘的關(guān)鍵。數(shù)據(jù)庫(kù)及日常收集到的數(shù)據(jù)極易受到缺失值、異常值、無(wú)效值、重復(fù)值等不一致數(shù)據(jù)的影響，如果不對(duì)這些數(shù)據(jù)在建模前進(jìn)行恰當(dāng)?shù)奶幚?，極容易產(chǎn)生"gabage in,gabage out"，即垃圾進(jìn)，垃圾出的結(jié)果，很難得到有用的數(shù)據(jù)挖掘信息。

2）需要清理的數(shù)據(jù)類(lèi)型

A、缺失值。缺失的處理方式：忽略觀測(cè)值，當(dāng)數(shù)據(jù)量較大，而缺失值較少，忽略觀測(cè)值對(duì)分析結(jié)果影響不大時(shí)，可以采用這種方式；人工填寫(xiě)，找到缺失值的關(guān)系，通過(guò)人工調(diào)查得到并填寫(xiě)缺失值，當(dāng)缺失值量比較大時(shí)不適用；使用一個(gè)全局常量來(lái)填寫(xiě)缺失值；使用屬性的中心度量(如均值和中位數(shù))來(lái)填充缺失值；單獨(dú)作為一類(lèi)。

B、異常值。離群值、極端值。明顯偏大或偏小的值，異常值不一定為錯(cuò)誤值。識(shí)別異常值的常用方法有三種：

第一種方法是為每個(gè)變量設(shè)定一個(gè)正常的取值范圍，然后可以用簡(jiǎn)單的探索性統(tǒng)計(jì)分析進(jìn)行識(shí)別。本方法是簡(jiǎn)單快捷，缺點(diǎn)是只考慮了單個(gè)變量，沒(méi)有考慮變量之間的相互影響。

第二種方法建立在生成數(shù)據(jù)的過(guò)程中是否具有特定函數(shù)形式的模型，如假定服從線性模型，則利用線性模型擬合后，嚴(yán)重偏離模型的即為異常值。本方法的優(yōu)點(diǎn)是考慮了變量之間的相互作用，缺點(diǎn)是需要有一個(gè)事先的假設(shè)，若假設(shè)錯(cuò)誤，則有可能誤判的點(diǎn)為異常值。

第三種方法是用聚類(lèi)算法將數(shù)據(jù)分為較小的子集，即簇或者群，只包含較小數(shù)量的觀測(cè)值的群，被認(rèn)定為極端值。聚類(lèi)算法根據(jù)統(tǒng)計(jì)距離指標(biāo)將相似的觀測(cè)值分布在同一個(gè)簇。這個(gè)方法結(jié)合了以上兩個(gè)方法的優(yōu)點(diǎn)。但是在數(shù)據(jù)量較大的情況下，聚類(lèi)對(duì)系統(tǒng)的資源要求比較大。

C、無(wú)效值。在錄入時(shí)導(dǎo)致的錯(cuò)誤，比如性別在錄入時(shí)F代表女，M代表男。但是在錄入時(shí)出現(xiàn)了FM的情況，這種情況就是無(wú)效值。還有數(shù)據(jù)存在有效期，隨著周?chē)闆r的變化，數(shù)據(jù)也會(huì)發(fā)生變化。無(wú)效值的處理方式可以通過(guò)查詢(xún)數(shù)據(jù)來(lái)源、重復(fù)收集等修改為有效值，也可以作為單獨(dú)的一類(lèi)。

D、數(shù)據(jù)的重復(fù)值。對(duì)于有些值，比如ID，根據(jù)數(shù)據(jù)表示的含義，一條記錄代表一個(gè)唯一的ID，但是在數(shù)據(jù)整合過(guò)程中出現(xiàn)了多個(gè)ID，對(duì)于重復(fù)觀測(cè)，一般的方式是確定好原因之后刪除。

5、類(lèi)別變量的清理

變量的類(lèi)型分為三類(lèi)：類(lèi)型變量、順序變量、數(shù)值變量。

6、數(shù)值型變量的清理

1）缺失值的處理方式：

刪除缺失值：最常用的方式是直接刪除，一般適合于樣本比較小的情況，這種方法的局限性是以丟棄樣本量來(lái)?yè)Q取信息的完備，會(huì)造成信息丟失。

替換缺失值：如用全局平均值或中位數(shù)；局部的平均數(shù)或中位數(shù)；線性插值；線性趨勢(shì)插值。

缺失值分析：缺失值的描述和快速診斷，生成診斷報(bào)告，包含哪些變量存在缺失，比例為多少，是否與其他變量的取值有關(guān)等。

重復(fù)值處理：

7、正態(tài)分布的驗(yàn)證

1）商業(yè)背景：自然界的多數(shù)自然現(xiàn)象，很多實(shí)驗(yàn)數(shù)據(jù)，行為數(shù)據(jù)等都服從正態(tài)分布，很多統(tǒng)計(jì)方法應(yīng)用前提或者效果檢驗(yàn)用到正態(tài)分布的假設(shè)。

2）SPSS菜單解決方案

P-P圖與Q-Q圖：P-P圖是根據(jù)變量的累積概率對(duì)應(yīng)于所指定的理論分布累積概率繪制的散點(diǎn)圖，用于直觀地檢測(cè)樣本數(shù)據(jù)是否符合某一概率分布。如果被檢驗(yàn)的數(shù)據(jù)符合所指定的分布，則代表樣本數(shù)據(jù)的點(diǎn)應(yīng)當(dāng)基本在代表理論分布的對(duì)角線上。P-P圖是用分布的累計(jì)比，而Q-Q圖用的是分布的分位數(shù)來(lái)做檢驗(yàn)。Q-Q圖的結(jié)果與P-P圖相似，如果數(shù)據(jù)為正態(tài)分布，則在Q-Q正態(tài)分布圖中，數(shù)據(jù)點(diǎn)應(yīng)基本在圖中對(duì)角線上。

第4章數(shù)據(jù)的行處理

1、數(shù)據(jù)篩選：商業(yè)背景：數(shù)據(jù)表中有10個(gè)分店的所有客戶(hù)資料數(shù)據(jù)，而你僅需要分析其中位于上海的兩個(gè)分店的年齡介于18~30歲的會(huì)員的消費(fèi)行為數(shù)據(jù)，這時(shí)候你就要用到篩選功能。

2、排序與求秩：商業(yè)背景：你需要分析按照購(gòu)買(mǎi)額排序最大的5個(gè)客戶(hù)的特征，或者你需要分析10個(gè)分店中，每個(gè)分店購(gòu)買(mǎi)額最大的5個(gè)（或者前1%）客戶(hù)的特征。

3、抽樣：商業(yè)背景：你有幾百萬(wàn)近一年的購(gòu)買(mǎi)行為數(shù)據(jù)，由于購(gòu)買(mǎi)行為較為頻繁，數(shù)據(jù)量較大，分析全國(guó)數(shù)據(jù)較慢，為快速了解數(shù)據(jù)的特征你可以采用抽樣方式。

4、數(shù)據(jù)分組和匯總：商業(yè)背景：你現(xiàn)在有2013.1.1~2013.12.31每個(gè)工作日的銷(xiāo)售數(shù)據(jù)，怎樣分析每個(gè)月的銷(xiāo)售變動(dòng)情況？你現(xiàn)在有每個(gè)銷(xiāo)售員的業(yè)績(jī)，他們隸屬于15個(gè)銷(xiāo)售團(tuán)隊(duì)，怎樣比較這些銷(xiāo)售隊(duì)的業(yè)績(jī)？

第5章數(shù)據(jù)的列處理

1、計(jì)算新變量：商業(yè)背景：需要在數(shù)據(jù)集中基于現(xiàn)有變量構(gòu)造新變量，以便于更好地分析數(shù)據(jù)。

2、拆分列：商業(yè)背景：假如你現(xiàn)在有每個(gè)銷(xiāo)售員6個(gè)月的銷(xiāo)售數(shù)據(jù)，但是這些月份是全部放在一列的，不適合展示和按月對(duì)比。所以需要“重組”.

3、堆疊列：商業(yè)背景：假設(shè)你現(xiàn)在有銷(xiāo)售員6個(gè)月的銷(xiāo)售數(shù)據(jù)，每個(gè)月作為一列，為了滿(mǎn)足你的分析目的，你想轉(zhuǎn)換成所有的月份都在一列。和拆分列相反。

4、轉(zhuǎn)置列：為方便分析數(shù)據(jù)，將行和列直接轉(zhuǎn)置。

5、對(duì)列重編碼：商業(yè)背景：現(xiàn)在有一列關(guān)于會(huì)員家庭收入的數(shù)據(jù)，部分會(huì)員沒(méi)有填寫(xiě)，你現(xiàn)在想用其他會(huì)員的平均收入代替缺失值，應(yīng)該如何實(shí)現(xiàn)呢？

重新編碼有三種主要的類(lèi)型：第一、重編碼為相同變量是對(duì)原變量取值進(jìn)行修改，用新編碼直接取代原變量的取值；第二、重編碼為不同變量是將編碼存入新的變量，根據(jù)原始變量的取值生成一個(gè)新變量來(lái)表示分組情況；第三、自動(dòng)編碼。將字符串值或數(shù)字值重新編碼為連續(xù)整數(shù)。字符型變量按照字母順序排列，大寫(xiě)字母排在小寫(xiě)字母前面，缺失值編碼大于任何非缺失值。

6、標(biāo)準(zhǔn)化：商業(yè)背景：在需要用到計(jì)算距離的模型中，距離很容易受到量綱的影響，比如A的身高為185CM，B的身高為160CM，若用厘米做單位兩人身高的差異為25CM，若用米作單位，身高的差異為0.25M，但0.25<25，我們看到單位不同影響了差異的比較，為了消除量綱影響和變量自身差異大小和數(shù)值大小的影響，經(jīng)常將數(shù)據(jù)標(biāo)準(zhǔn)化。

第6章數(shù)據(jù)集的操作

1、縱向連接：商業(yè)背景：你現(xiàn)在有公司各個(gè)分店會(huì)員客戶(hù)的基本信息，由于每家分店是手工填寫(xiě)的，這些信息散布在不同的表中，為了便于分析，你需要將這些信息整合到一張表中。

縱向連接的五種類(lèi)型：第一、包含A、B中所有的觀測(cè)（含重復(fù)）；第二、包含A、B中所有的觀測(cè)（不含重復(fù)）；第三、包含A中所以不在B中的觀測(cè)；第四、包含AB共有的觀測(cè)；第五、包含B中所有不在A中的觀測(cè)。

注意：第一、縱向連接表中變量不一致。若某個(gè)變量?jī)H存于部分?jǐn)?shù)據(jù)集中，則結(jié)果數(shù)據(jù)集中會(huì)包含此變量，并將不包含此變量的相關(guān)觀測(cè)中的變量置為空缺值。第二、縱向連接表中變量名稱(chēng)、類(lèi)型不一致。要在連接表中直接進(jìn)行變量修改；第三、縱向連接表變量的順序不一致?？梢酝ㄟ^(guò)合并參數(shù)的調(diào)整來(lái)順利實(shí)現(xiàn)表的連接。

2、橫向連接：商業(yè)背景：假如你現(xiàn)在需要建立客戶(hù)評(píng)分卡，需要使用客戶(hù)的人口屬性信息、購(gòu)買(mǎi)行為信息等，但這些信息分屬于不同的表或者不同的數(shù)據(jù)庫(kù)，在這些表中每個(gè)都有一個(gè)共同的主鍵客戶(hù)ID。

橫向連接的四種類(lèi)型：第一、左聯(lián)接：返回包括左表中的所有記錄和右表中聯(lián)結(jié)字段相等的記錄；第二、右聯(lián)接：返回包括右表中的所有記錄和左表中聯(lián)結(jié)字段相等的記錄；第三、內(nèi)連接：只返回兩個(gè)表中聯(lián)結(jié)字段相等的行；第四、全連接：返回兩個(gè)表中所有的字段。

3、數(shù)據(jù)集的比較：商業(yè)背景：你有一份幾年前的客戶(hù)資料數(shù)據(jù)集，最近市場(chǎng)部分又重新設(shè)計(jì)了表格更新了部分收集字段，讓老客戶(hù)重新進(jìn)行填寫(xiě)，形成了一個(gè)新數(shù)據(jù)集。你現(xiàn)在需要快速地了解前后兩個(gè)數(shù)據(jù)集修改了哪些字段，同一個(gè)客戶(hù)的哪些信息變更了。

第7章數(shù)據(jù)的展示：圖形及報(bào)告的編制

1、數(shù)據(jù)可視化與圖表：你現(xiàn)在有一批數(shù)據(jù)，如何形象地探索數(shù)據(jù)及展示數(shù)據(jù)之間的規(guī)律，如何將復(fù)雜的數(shù)據(jù)挖掘結(jié)果清晰地向使用者展示清楚，都需要用到數(shù)據(jù)的可視化及圖表制作。

2、統(tǒng)計(jì)圖分為描述性統(tǒng)計(jì)圖和檢驗(yàn)統(tǒng)計(jì)圖。前者多用于數(shù)據(jù)可視化，是對(duì)代表某業(yè)務(wù)運(yùn)營(yíng)情況的指標(biāo)進(jìn)行圖形描述，主要是對(duì)其分布、比例、趨勢(shì)的描述，大量出現(xiàn)在工作報(bào)告中，比如餅圖、條形圖。后者是對(duì)特定統(tǒng)計(jì)檢驗(yàn)和統(tǒng)計(jì)量的形象展示，僅出現(xiàn)在特定統(tǒng)計(jì)報(bào)告中，一般不在工作報(bào)告中出現(xiàn)，比如直方圖、P-P圖、ROC曲線。

3、以數(shù)據(jù)為基礎(chǔ)，制作圖表的步驟：1）整理原始數(shù)據(jù)。通過(guò)前面我們介紹的行處理、列處理，將來(lái)自不同數(shù)據(jù)流的數(shù)據(jù)整合成規(guī)整的數(shù)據(jù)，是做好后續(xù)數(shù)據(jù)展示的基礎(chǔ)。2）確定要表達(dá)的信息。3）確定比較的類(lèi)型。4）確定圖表的類(lèi)型。

4、數(shù)據(jù)可視化是當(dāng)今數(shù)據(jù)挖掘的一個(gè)熱門(mén)方向。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

本書(shū)的重點(diǎn)內(nèi)容和理解：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書(shū)筆記

本書(shū)的重點(diǎn)內(nèi)容和理解：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av