T1.3 Excel-Data Cleansing

數(shù)據(jù)清洗

查重去重

缺失值定位與處理

檢測數(shù)據(jù)邏輯



3.1 查詢重復(fù)數(shù)據(jù)

A 函數(shù)法: COUNTIF(range,criteria)

重復(fù)標記:

在C列中CX—共重復(fù)出現(xiàn)了幾次

第二次重復(fù)標記:


在C1到CX中CX出現(xiàn)了幾次


B 高級篩選法(去重優(yōu)選2) ☆☆☆☆


【數(shù)據(jù)】——【篩選-高級】


選中區(qū)域必須包含變量名,復(fù)制到的區(qū)域選擇起始位置即可,會生成新變量

C 條件格式法(查重優(yōu)選) ☆☆☆☆

【條件格式】——【突出顯示單元格規(guī)則】——【重復(fù)值】

D 數(shù)據(jù)透視表法


會默認第一個值為變量名,不參與統(tǒng)計:選中區(qū)域須包含變量名


分別拉動目標變量到【行標簽】、Σ數(shù)值
計數(shù)就是頻次,頻次超過1的就是重復(fù)項

3.2 刪除重復(fù)數(shù)據(jù)

A 菜單欄刪除


【數(shù)據(jù)】——【刪除重復(fù)項】


如果有多個變量要擴展,確認選中區(qū)域是否包含變量名
不會生成新變量




3.3 缺失值處理

A 常見方式

a. 用樣本統(tǒng)計量的值代替缺失值,如Mean

b. 用統(tǒng)計模型計算出來一個值代替缺失值,如回歸模型

c. 刪除含缺失值的Case

d. 不作處理,在分析時排除含缺失值的個案

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?——適用于【樣本量大】+【缺失值少】+【變量之間無高度相關(guān)】

B 定位輸入

定位:Ctrl+G

【編輯】——【查找和選擇】——<定位條件>——<空值>——選中所有空值

輸入:Ctrl+Enter

選中之后輸入“XX”,然后按Ctrl+Enter,所有選中單元格都輸入了XX

C 查找替換

查找:Ctrl+F

替換:Ctrl+H

定位:Ctrl+G


3.4 檢查數(shù)據(jù)邏輯錯誤

A 利用IF函數(shù)檢查錯誤——“最多選擇3項”


如果B2:G2中不為0的值超過3個,則返回false,反之返回true


?B 利用條件格式標記錯誤——“只能出現(xiàn)0/1兩個值”


選中目標區(qū)域——【條件格式】——【突出顯示單元格】——【其他規(guī)則】
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容