數(shù)據(jù)探索在機(jī)器學(xué)習(xí)中我們一般稱為EDA(Exploratory Data Analysis):
是指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。
數(shù)據(jù)探索有利于我們發(fā)現(xiàn)數(shù)據(jù)的一些特性,數(shù)據(jù)之間的關(guān)聯(lián)性,對于后續(xù)的特征構(gòu)建是很有幫助的。
對于數(shù)據(jù)的初步分析(直接查看數(shù)據(jù),或.sum(), .mean(),.descirbe()等統(tǒng)計(jì)函數(shù))可以從:樣本數(shù)量,訓(xùn)練集數(shù)量,是否有時(shí)間特征,是否是時(shí)許問題,特征所表示的含義(非匿名特征),特征類型(字符類似,int,float,time),特征的缺失情況(注意缺失的在數(shù)據(jù)中的表現(xiàn)形式,有些是空的有些是”NAN”符號等),特征的均值方差情況。
分析記錄某些特征值缺失占比30%以上樣本的缺失處理,有助于后續(xù)的模型驗(yàn)證和調(diào)節(jié),分析特征應(yīng)該是填充(填充方式是什么,均值填充,0填充,眾數(shù)填充等),還是舍去,還是先做樣本分類用不同的特征模型去預(yù)測。
對于異常值做專門的分析,分析特征異常的label是否為異常值(或者偏離均值較遠(yuǎn)或者事特殊符號),異常值是否應(yīng)該剔除,還是用正常值填充,是記錄異常,還是機(jī)器本身異常等。
對于Label做專門的分析,分析標(biāo)簽的分布情況等。
進(jìn)步分析可以通過對特征作圖,特征和label聯(lián)合做圖(統(tǒng)計(jì)圖,離散圖),直觀了解特征的分布情況,通過這一步也可以發(fā)現(xiàn)數(shù)據(jù)之中的一些異常值等,通過箱型圖分析一些特征值的偏離情況,對于特征和特征聯(lián)合作圖,對于特征和label聯(lián)合作圖,分析其中的一些關(guān)聯(lián)性。