認(rèn)識(shí)數(shù)據(jù)-DataMining

一、數(shù)據(jù)對(duì)象和屬性類型

數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成;數(shù)據(jù)對(duì)象用屬性描述。

數(shù)據(jù)對(duì)象:
????一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)數(shù)據(jù)實(shí)體;
????又稱為:樣本、實(shí)例、數(shù)據(jù)點(diǎn)、對(duì)象;
? ? 如果數(shù)據(jù)對(duì)象存放在數(shù)據(jù)庫(kù)中,則稱為 數(shù)據(jù)元組;
? ? 就是說(shuō),數(shù)據(jù)庫(kù)的行對(duì)應(yīng)于數(shù)據(jù)對(duì)象,而列對(duì)應(yīng)于屬性;

屬性:
? ? 是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。
? ? 在文獻(xiàn)中,屬性、維(dimension)、特征(feature)、變量(variable)可以互換使用。
? ? 維:一般用在數(shù)據(jù)倉(cāng)庫(kù)中;
? ? 特征:機(jī)器學(xué)習(xí)文獻(xiàn)更傾向于使用此術(shù)語(yǔ);
? ? 變量:統(tǒng)計(jì)學(xué)家更愿意使用此術(shù)語(yǔ);
? ? 屬性:數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)的專業(yè)人士?jī)A向于使用的術(shù)語(yǔ);

特征向量:用來(lái)描述一個(gè)給定對(duì)象的一組屬性;又稱屬性向量;

屬性類型:由該屬性可能具有的值的集合決定;
? ? 標(biāo)稱屬性、二元屬性、序數(shù)屬性、數(shù)值屬性;

標(biāo)稱屬性:nominal attribute? ?/'nɑm?nl/
? ? 標(biāo)稱屬性的值是一些符號(hào)或事物的名稱,每個(gè)值代表某種類別、狀態(tài)、編碼;
? ? 這些值不必具有有意義的順序,并且不是定量的,也被稱為 枚舉(enumeration);
? ? 這種屬性的均值、中值是沒(méi)有意義的;
? ? 中心趨勢(shì)度量使用 眾數(shù)(Mode):該屬性最常出現(xiàn)的值;

二元屬性:(binary attribute)
????是一種只有兩個(gè)狀態(tài)的標(biāo)稱屬性;1表示出現(xiàn),0表示不出現(xiàn);
? ? 又稱布爾屬性,如果兩種狀態(tài)對(duì)應(yīng) true 和 false的話;
? 對(duì)稱二元屬性:兩種狀態(tài)具同等價(jià)值,且攜帶相同的權(quán)重;例如性別gender。
? 非對(duì)稱二元屬性:狀態(tài)的結(jié)果不是同等重要;例如:新冠檢測(cè):陽(yáng)性、陰性;

序數(shù)屬性:ordinal attribute??/'?rd?nl/
? ? 其可能的值之間具有有意義的順序評(píng)定,但值之間的差是未知的;
? ? 用于記錄不能客觀度量的主觀質(zhì)量評(píng)估,通常用于等級(jí)評(píng)定;
? ? 也可以通過(guò)把數(shù)值屬性的值域劃分成有限個(gè)順序類別,把數(shù)值屬性離散化而得到;
? ? 中心趨勢(shì)度量:眾數(shù) 和 中位數(shù)(有序序列的中間值)表示,不能定義均值;

注:標(biāo)稱屬性、序數(shù)屬性都是定性的,僅描述對(duì)象的特征,而不給出實(shí)際的大小或數(shù)量,不是可測(cè)量的值;例如:0表示中杯,1表示大杯,2表示特大杯。(羅永浩:小杯是什么?)

數(shù)值屬性:numeric attribute? ??/nu'm?r?kl/?
? ? 是定量的,可度量的量,用整數(shù)或?qū)崝?shù)表示;
? ? I、區(qū)間標(biāo)度屬性 interval-scaled:用相等的單位尺度度量,區(qū)間屬性的值有序,允許比較和定量評(píng)估值之間的差。例如溫度,沒(méi)有真正的零點(diǎn),0℃不表示沒(méi)有溫度,不能說(shuō)10℃比5℃溫暖2倍;即不能用比率談?wù)撨@些值;
? ? II、比率標(biāo)度屬性 ratio-scaled:是具有固有零點(diǎn)的數(shù)值屬性;可以說(shuō)一個(gè)值是另一個(gè)值的倍數(shù)。例如開(kāi)氏溫度、速度、年齡、高度等;

另:機(jī)器學(xué)習(xí)領(lǐng)域的分類算法通常把屬性分成:離散的、連續(xù)的;
? ? 離散屬性:具有有限或無(wú)限個(gè)可數(shù)的值;可以用整數(shù) 或 不用整數(shù) 表示;
? ? 連續(xù)屬性:連續(xù)屬性一般用浮點(diǎn)變量表示,值是實(shí)數(shù);

二、數(shù)據(jù)的基本統(tǒng)計(jì)描述

中心趨勢(shì)度量:度量數(shù)據(jù)分布的中部或中心位置;即屬性的值大部分落在何處。
? ? 均值、中位數(shù)、眾數(shù)、中列數(shù);

數(shù)據(jù)散布度量:數(shù)據(jù)如何分散的,識(shí)別離群點(diǎn);
? ? 極差、四分位數(shù)、四分位數(shù)極差、五數(shù)概括、盒圖、方差、標(biāo)準(zhǔn)差;

基本統(tǒng)計(jì)描述可視化:分位數(shù)圖、分位數(shù)-分位數(shù)圖、直方圖、散點(diǎn)圖、線圖、餅


1、中心趨勢(shì)度量:

I、均值 mean:數(shù)據(jù)集『中心』最常用、最有效的數(shù)值度量。適用于對(duì)稱數(shù)據(jù)集;
? ? 加權(quán)平均:每個(gè)值可以與一個(gè)權(quán)重Wi相關(guān)聯(lián),權(quán)重反應(yīng)對(duì)應(yīng)值的意義、重要性或出現(xiàn)的頻率。
? ? 截尾均值 trimmed mean:丟棄高低極端值后的均值;計(jì)算均值前去掉高端和低端的2%;

II、中位數(shù) median:有序數(shù)據(jù)值的中間值,把數(shù)據(jù)分為高低兩半的值;適用于非對(duì)稱數(shù)據(jù)集;
? ? 中位數(shù)的近似值:當(dāng)觀測(cè)的數(shù)量很大時(shí),中位數(shù)的計(jì)算開(kāi)鎖很大,用近似值公式計(jì)算;

III、眾數(shù) mode:集合中出現(xiàn)最頻繁的值。定性定量屬性均可有眾數(shù);
? ? 單峰數(shù)據(jù)集 unimodal:最高頻率對(duì)應(yīng)一個(gè)值;
????多峰數(shù)據(jù)集 multimodal:最高頻率對(duì)應(yīng)兩個(gè)或更多值?;

IV、中列數(shù) midrange:是數(shù)據(jù)集最大和最小值的平均值;

對(duì)稱數(shù)據(jù)分布的單峰數(shù)據(jù)集,均值、中位值、眾數(shù)是相同的中心值;
正傾斜分布的數(shù)據(jù)集,眾數(shù)出現(xiàn)在小于中位數(shù)的值上;
負(fù)傾斜分布的數(shù)據(jù)集,眾數(shù)出現(xiàn)在大于中位數(shù)的值上;


2、度量數(shù)據(jù)散布:

I、極差 range:最大值 max()與最小值Min()之差;

II、分位數(shù) quantile:把數(shù)據(jù)分布劃分為基本大小相等的連貫集合的數(shù)據(jù)點(diǎn);
? ? 二分位數(shù):即中位數(shù):把數(shù)據(jù)劃分為高低兩半;
? ? 四分位數(shù) quartile :是3個(gè)數(shù)據(jù)點(diǎn),把數(shù)據(jù)分布劃分為4個(gè)相等的部分,各四分之一;
? ? 百分位數(shù) percentile :把數(shù)據(jù)分布劃分成100個(gè)大小相等的連貫集;

? ? 四分位數(shù)極差 IQR :第一個(gè)四分位數(shù)Q1和第三個(gè)四分位數(shù)Q3之間的距離,是中間一半所覆蓋的數(shù)據(jù)范圍,是散布的一種簡(jiǎn)單度量。

III、五數(shù)概括 five-number summary、盒圖 boxplot、離群點(diǎn)?
? ? 對(duì)于傾斜分布,單個(gè)散布數(shù)值度量(例IQR)不是很有用;中心度量值不能把數(shù)據(jù)劃分成大小相同的兩半;因此用五個(gè)數(shù)來(lái)概括更完整的數(shù)據(jù)分布形狀;
? ? 五數(shù)概括:Mininum、Q1、Median、Q3、Maxinum;
????????????????????最小值、四分位數(shù)Q1、中位數(shù)、四分位數(shù)Q3、最大值;
? ? 盒圖:體現(xiàn)了五數(shù)概括;
? ? ? ? 盒的長(zhǎng)度是四分位數(shù)極差I(lǐng)QR;
????????中位數(shù)用盒內(nèi)的線標(biāo)記;
? ? ? ? 盒外的兩條線(胡須)延伸到最小和最大觀測(cè)值;如果最高或最低值超過(guò)四分位數(shù)的1.5倍IQR時(shí),則胡須擴(kuò)展到1.5xIQR終止,剩下的值個(gè)別繪出;

IV、方差和標(biāo)準(zhǔn)差

指出數(shù)據(jù)分布的散布程度;
低標(biāo)準(zhǔn)差:數(shù)據(jù)趨向于非??拷?;高標(biāo)準(zhǔn)差:數(shù)據(jù)散布在一個(gè)大的值域中。
標(biāo)準(zhǔn)差(standard deviation)σ(西格瑪) 是方差?(Variance)σ^2(西格瑪平方)的平方根;
一個(gè)觀測(cè)一般不會(huì)遠(yuǎn)離均值超過(guò)標(biāo)準(zhǔn)差的倍數(shù),是數(shù)據(jù)集發(fā)散的很好指示器。


3、數(shù)據(jù)的基本統(tǒng)計(jì)描述的圖形顯示:

這些圖形是助于可視化的審視數(shù)據(jù),對(duì)數(shù)據(jù)預(yù)處理是有用的。

I、分位數(shù)圖 quantile plot
觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效的方法。
? ? 顯示所有數(shù)據(jù):評(píng)估總的情況和不尋常的數(shù)據(jù);
? ? 顯示分位數(shù)信息,按遞增順序排序的數(shù)據(jù),可以基于分位數(shù)比較不同的分布;

II、分位數(shù)-分位數(shù)圖 quantile - quantile plot:
III、直方圖 histogram
IV、散點(diǎn)圖 scatter plot:確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或趨勢(shì)的最有效的圖形方法之一;用于觀察 簇和離群點(diǎn) 或 考察相關(guān)聯(lián)系的可能性。正相關(guān)、負(fù)相關(guān)、零相關(guān);

綜上所棕:基本數(shù)據(jù)描述(中心趨勢(shì)度量、散布度量)和圖形統(tǒng)計(jì)顯示(分位數(shù)圖、直方圖、散點(diǎn)圖)提供了數(shù)據(jù)總體情況的有價(jià)值的洞察。有助于識(shí)別噪聲和離群點(diǎn),所以對(duì)于數(shù)據(jù)清理特別有用。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容