task2 數(shù)據(jù)的探索性分析(EDA)

數(shù)據(jù)探索在機(jī)器學(xué)習(xí)中我們一般稱為EDA(Exploratory Data Analysis):

是指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。

數(shù)據(jù)探索有利于我們發(fā)現(xiàn)數(shù)據(jù)的一些特性,數(shù)據(jù)之間的關(guān)聯(lián)性,對于后續(xù)的特征構(gòu)建是很有幫助的。

  1. 對于數(shù)據(jù)的初步分析(直接查看數(shù)據(jù),或.sum(), .mean(),.descirbe()等統(tǒng)計(jì)函數(shù))可以從:樣本數(shù)量,訓(xùn)練集數(shù)量,是否有時(shí)間特征,是否是時(shí)許問題,特征所表示的含義(非匿名特征),特征類型(字符類似,int,float,time),特征的缺失情況(注意缺失的在數(shù)據(jù)中的表現(xiàn)形式,有些是空的有些是”NAN”符號等),特征的均值方差情況。

  2. 分析記錄某些特征值缺失占比30%以上樣本的缺失處理,有助于后續(xù)的模型驗(yàn)證和調(diào)節(jié),分析特征應(yīng)該是填充(填充方式是什么,均值填充,0填充,眾數(shù)填充等),還是舍去,還是先做樣本分類用不同的特征模型去預(yù)測。

  3. 對于異常值做專門的分析,分析特征異常的label是否為異常值(或者偏離均值較遠(yuǎn)或者事特殊符號),異常值是否應(yīng)該剔除,還是用正常值填充,是記錄異常,還是機(jī)器本身異常等。

  4. 對于Label做專門的分析,分析標(biāo)簽的分布情況等。

  5. 進(jìn)步分析可以通過對特征作圖,特征和label聯(lián)合做圖(統(tǒng)計(jì)圖,離散圖),直觀了解特征的分布情況,通過這一步也可以發(fā)現(xiàn)數(shù)據(jù)之中的一些異常值等,通過箱型圖分析一些特征值的偏離情況,對于特征和特征聯(lián)合作圖,對于特征和label聯(lián)合作圖,分析其中的一些關(guān)聯(lián)性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容