python 數(shù)據(jù)分析筆記

這里講到的都是平時(shí)和sql,以及數(shù)據(jù)透視表十分類似的功能。數(shù)據(jù)分析會經(jīng)常用到。

1.去重函數(shù)? .unique()

Input:


output:


2.計(jì)數(shù)函數(shù) ?.value_counts()

input

Series 版


output


Data Frame 版


統(tǒng)計(jì)一個frame中的所有元素在每個數(shù)列 QUE中 的個數(shù)


3.條件判斷函數(shù) .isin(['b','c'])


output:


處理空值

1.判斷空值的函數(shù) .isnull() NAN, None 都適用


output


.dropna() 對存在缺失值進(jìn)行過濾,等同于.notnull()

Series 版


output


DataFrame 版


(1)只要存在NA就會給DROP 掉,如果改成 how='all' 只drop掉全部都是NA的


(2)按照列進(jìn)行drop AXIS=1 .dropna(axis =1 ,how='all')


output


(3) 設(shè)置對缺失值的容忍度, ?thresh


填充數(shù)據(jù)

(1).fillna({1:0.5}) ,可以按照columns 選擇填充在哪一列

df.fillna(0) = ?_.=df.fillna(0,inplace=True)



(2)順延填充 method = 'ffill',limit 限制閾值


output


或者填充某個統(tǒng)計(jì)函數(shù)值 .fillna(data.mean())


output



層次化索引

(1)存在多個INDEX


output


(2)多種的定位方式

input


output


(3)數(shù)據(jù)透視表模式 .unstack() ? ? ?解開數(shù)據(jù)透視表模式 .stack()


output


(4) 復(fù)合index 和 復(fù)合columns 的情況,給 index 和 column 命名


output


(5) 多重index變換位置


out put


(6) sort_index(level=1) 按照那個level 進(jìn)行排序


(7)跟數(shù)據(jù)透視表一樣進(jìn)行橫排和縱排的sum


(8) 將frame的兩列作為index進(jìn)行計(jì)算,同樣類似于數(shù)據(jù)透視表


output


(9) 將columns 作為index,且仍然保持作為數(shù)據(jù)列 ,drop=false


output


(10) ?.reset_index 將層次性index釋放


output


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容