本文您將要了解:
1、數(shù)據(jù)由什么類型的屬性或字段組成?
2、每個屬性具有何種類型的數(shù)據(jù)值?
3、哪些屬性是離散的?哪些是連續(xù)值的?
4、數(shù)據(jù)看上去如何?值如何分布?
5、有什么方法可以可視化地觀察數(shù)據(jù),以便更好地理解它嗎?
6、能夠看出離群點嗎?
7、可以度量某些數(shù)據(jù)對象與其他數(shù)據(jù)對象之間的相似性嗎?
? ? ? ? 例如給定溫度屬性,我們可以確定其均值、中位數(shù)、眾數(shù)。這些是中心趨勢度量,使我們了解分布的”中部“或中心。關于每個屬性的這種基本統(tǒng)計量的知識有助于在數(shù)據(jù)預處理時填補缺失值、光滑噪聲、識別離群點。分位數(shù)圖、直方圖和散點圖都是顯示基本統(tǒng)計描述的其他圖形方法。
一、數(shù)據(jù)對象與屬性類型
? ? ? ? ?屬性是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征。
1、標稱屬性:
? ? ? ? 一些符號或事物的名稱??梢杂脭?shù)字符號代替,但并不是定量的。
2、二元屬性:
? ? ? ? 一種標稱屬性,只有兩個類別或狀態(tài):0或1,其中0表示該屬性不出現(xiàn),1表示出現(xiàn)。若這兩種狀態(tài)對應true或false,又稱為布爾屬性。若二元屬性是對稱的,意思是關于哪個結果應該用0或1編碼并無偏好,如男或女。若二元屬性是非對稱的,我們常用1表示重要數(shù)據(jù),如艾滋病陽性。
3、序數(shù)屬性:
? ? ? ? 其可能的值之間具有有異議的序或秩評定,但相繼值之間的差是未知的。如小中大、助教講師副教授教授、不滿意不太滿意中性滿意很滿意。
? ? ? ? 標稱、二元、序數(shù)屬性都是定性的。
4、數(shù)值屬性:
? ? ? ? 定量的,可度量的值,用整數(shù)或實數(shù)值表示??梢允菂^(qū)間標度的或比率標度的。
? ? ? ? 區(qū)間標度屬性:用相等的單位尺度度量。如溫度,時間等,其特點是不能用比率談論這些數(shù)值,如不能說說10度是5度的2倍。沒有絕對的零點,即0度不是“沒有溫度”,0年不表示時間的開始。
? ? ? ? 比率標度屬性:具有固定零點的數(shù)值屬性。如果度量是比率標度的,則可以說一個值是另一個倍數(shù)。
? ? ? ? 我們將屬性分為標稱、二元、序數(shù)和數(shù)值類型??梢杂迷S多方法來組織屬性類型,這些類型不是互斥的。
? ? ? ? 機器學習的分類算法將屬性分為離散的或連續(xù)的,每種類型都可以用不同的方法處理。
二、基本統(tǒng)計描述
? ? ? ??中心趨勢度量:均值、中位數(shù)和眾數(shù)
? ? ? ? ?散布度量:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差
? ? ? ? ?圖形顯示:分位數(shù)圖、qq圖、直方圖、散點圖
? ? ? ? 中心趨勢度可以度量數(shù)據(jù)分布的中部或中心位置,主要討論均值、中位數(shù)、眾數(shù)和中列數(shù)。
? ? ? ? 數(shù)據(jù)分散常見度量是數(shù)據(jù)的稽查、四分位數(shù)、四分位數(shù)極差、無數(shù)概括和盒圖,以及方法和標準差。對于識別離群點,這些度量是有用的。
1、中心趨勢度量:均值、中位數(shù)和眾數(shù)
1)均值:

加權平均:

? ? ? ? 為了抵消少數(shù)極端值的影響,我們使用截尾均值(trimmed mean)。截尾均值是丟棄高低極端值后的平均。如可以對工資的觀測值排序,并在計算均值前去掉高端和低端的2%。
2)中位數(shù)(median):
? ? ? 對于傾斜(非對稱)數(shù)據(jù),數(shù)據(jù)中心最好度量是中位數(shù)。
? ? ? 若N是奇數(shù),中位數(shù)為有序集的中間值;若N是偶數(shù),約定中位數(shù)是兩值的平均值。
3)眾數(shù)(mode):
? ? ? ?一個、兩個、三個眾數(shù)的數(shù)據(jù)集合分別稱為單峰的(unimodal)、雙峰的(bimodal)和三峰的(trimodal)。

4)中列數(shù)(midrange):
? ? ? ? 數(shù)據(jù)集的最大值和最小值的平均數(shù)。
? ? ? ? 正傾斜的數(shù)據(jù),眾數(shù)出現(xiàn)在小于中位數(shù)的值上;負傾斜的數(shù)據(jù),眾數(shù)出現(xiàn)在大于中位數(shù)的值上。

2、數(shù)據(jù)散布度量:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差
1)極差(range):
? ? ? ? 最大值與最小值之差。
2)分位數(shù)(quantile):
? ? ? ?取自數(shù)據(jù)分布的每隔一定間隔上的點,把數(shù)據(jù)劃分成基本上大小相等的連貫集合。

? ? ? ?2-分位數(shù)是一個數(shù)據(jù)點,把數(shù)據(jù)劃分為高低兩半。2-分位數(shù)對應于中位數(shù)。
? ? ? ?4-分位數(shù)是3個數(shù)據(jù)點,把數(shù)據(jù)劃分為4個相等的部分,使每部分表示數(shù)據(jù)分布的四分之一。通常稱為四分位數(shù)(quartile)。
? ? ? ?100-分位數(shù)吧數(shù)據(jù)分為100個大小相等的連貫集。通常稱為百分位數(shù)(percentile)。
? ? ? ?中位數(shù)、四分位數(shù)、百分位數(shù)是使用最廣的分位數(shù)。
? ? ? ?第1個四分位數(shù)記作Q1,是第25個百分位數(shù),它砍掉數(shù)據(jù)的最低的25%。第3個四分位數(shù)記作Q3,是第75個百分位數(shù),它砍掉數(shù)據(jù)的最低的75%(或最高的25%)。
? ? ? ?第1個和第3個四分位數(shù)之間的距離是散布的一種簡單度量,給出被數(shù)據(jù)的中間一半所覆蓋的范圍,稱為四分位數(shù)極差(IQR):IQR=Q3-Q1
? ? ? ? 對于描述傾斜分布,單個散布數(shù)值度量(如IQR)都不是很有用。
? ? ? ? 識別可以離群點的通常規(guī)則是:挑選落在第3個四分位數(shù)之上或第1個四分位之下至少1.5*IQR處的值。
3)五數(shù)概括(five-number summary):
? ? ? ? 由中位數(shù)、四分位數(shù)Q1和Q3、最小和最大觀測值組成。按次序Mininum、Q1、Median、Q3、Maximum寫出。
4)盒圖(boxplot):
? ? ? ? 體現(xiàn)了五數(shù)概括:
? ? ? ? 盒的端點一般在四分位數(shù)上,使得盒的長度是四分位數(shù)極差IQR。
? ? ? ? 中位數(shù)用盒內(nèi)的線標記。
? ? ? ? 盒外的兩條線延伸到最小值和最大值。

? ? ? ? 僅當最高和最低觀測值超過四分位數(shù)不到1.5*IQR時,胡須擴展到它們。否則,胡須在出現(xiàn)在四分位數(shù)的1.5*IQR之內(nèi)的最極端的觀測值終止,剩下的情況個別繪出。
5)方差(variance)和標準差(standard deviation):

3、圖形顯示
1)分位數(shù)圖:
? ? ? ? 觀察單變量數(shù)據(jù)分布的簡單有效的方法。

2)分位數(shù)-分位數(shù)圖(qq圖):
? ? ? ? 對著另一個對應的分位數(shù),繪制一個單變量分布的分位數(shù)。它是一種強有力的可視化工具,使得用戶可以觀察從一個分布到另一個分布是否有漂移。

3)直方圖(頻率直方圖):

4)散點圖:
? ? ? ? 是確定兩個數(shù)值變量之間看上去是否存在聯(lián)系、模式或趨勢的最有效的圖形方法之一。
? ? ? ? 散點圖是一種觀察雙變量數(shù)據(jù)的有用的方法,用于觀察點簇和離群點,或考察相關聯(lián)系的可能性。
三、度量數(shù)據(jù)的相似性和相異性
? ? ? ? 我們拿到數(shù)據(jù)的數(shù)據(jù)幾乎都是多字段屬性的數(shù)據(jù)表,行代表對象,列代表屬性,通常我們需要比較兩個對象的相似性及差別才有意義,本節(jié)將介紹如何比較對象間的相似性和相異性。
? ? ? ? 有前面的介紹我們知道數(shù)據(jù)有多種類型,不同的數(shù)據(jù)屬性有不同的處理方式。本節(jié)從標稱屬性的相異性、二元屬性的相異性及相似性、數(shù)值屬性的相異性、序數(shù)屬性的相異性、混合類型屬性的相異性、余弦相似性介紹不同數(shù)據(jù)屬性的處理方法。
1、標稱屬性的近鄰性度量
? ? ? ? 對于標稱屬性,兩個對象屬性相異即為1,相同即為0,相異性可以表示為:

? ? ? ? 其中m是相同的屬性屬性,p是所有屬性數(shù)目
? ? ? ? 四個對象的相異矩陣可表示為:

? ? ? ? 混合屬性中附相關例題。
2、二元屬性的鄰近性度量
? ? ? ? 若所有二元都被看做具有相同權重,其中q是對象i和對象j都取1的屬性數(shù)。

? ? ? ? 對稱的二元相異性:每個狀態(tài)都同樣重要。若對象i和j都用對稱二元屬性刻畫,那么i和j的相異性為

? ? ? ? 非對稱的二元相異性:每個狀態(tài)不是同等重要的,如病理化驗的陽性(1)和陰性(0)。兩個都取1的情況比兩個都取0的情況更有意義。因此都取0的情況被認為是不重要的,因此忽略:

? ? ? ? 非對稱的二元相似性:我們用相似性來度量兩個二元屬性的差別,

? ? ? ? ?sim(i,j)被稱為Jaccard系數(shù)。
例題:


3、數(shù)值屬性的相異性:閔可夫斯基距離
? ? ? ? 閔可夫斯基距離:

? ? ? ? 又稱Lp范數(shù),p就是這里的h
? ? ? ? h=1,曼哈頓距離:

? ? ? ? ?h=2,歐幾里得距離:


4、序數(shù)屬性的近鄰性度量
? ? ? ? 將序數(shù)屬性轉換為數(shù)值屬性,再進行歸一化處理,之后與數(shù)值屬性處理相類似。
5、混合類型屬性的相異性
? ? ? ? 我們計算每一個屬性的相異矩陣,并且排除掉非對稱性屬性和屬性缺失值,對已有屬性求平均
例題:

? ? ? ? test-1、test-2、test-3相異性矩陣分別為:



? ? ? ? 由于不存在非對稱二元屬性和缺失值,因此求均值后得到相異矩陣為:

6、余弦相似性
? ? ? ? 從向量的角度出發(fā),計算兩向量之間的余弦,余弦值接近于1則相似性大。
? ? ? ? 常用在計算文本的相似性上。

? ? ? ? 例題:計算文檔1和文檔2的相似性


兩文檔相似度很高。
最后請回答開頭的幾個問題。
---本文知識點及例題出自《數(shù)據(jù)挖掘概念與技術》第3版 ?機械工業(yè)出版社