這里講到的都是平時(shí)和sql,以及數(shù)據(jù)透視表十分類似的功能。數(shù)據(jù)分析會經(jīng)常用到。
1.去重函數(shù)? .unique()
Input:

output:

2.計(jì)數(shù)函數(shù) ?.value_counts()
input
Series 版

output

Data Frame 版

統(tǒng)計(jì)一個frame中的所有元素在每個數(shù)列 QUE中 的個數(shù)

3.條件判斷函數(shù) .isin(['b','c'])

output:


處理空值
1.判斷空值的函數(shù) .isnull() NAN, None 都適用

output


.dropna() 對存在缺失值進(jìn)行過濾,等同于.notnull()
Series 版

output

DataFrame 版

(1)只要存在NA就會給DROP 掉,如果改成 how='all' 只drop掉全部都是NA的

(2)按照列進(jìn)行drop AXIS=1 .dropna(axis =1 ,how='all')

output

(3) 設(shè)置對缺失值的容忍度, ?thresh


填充數(shù)據(jù)
(1).fillna({1:0.5}) ,可以按照columns 選擇填充在哪一列
df.fillna(0) = ?_.=df.fillna(0,inplace=True)


(2)順延填充 method = 'ffill',limit 限制閾值

output

或者填充某個統(tǒng)計(jì)函數(shù)值 .fillna(data.mean())

output



層次化索引
(1)存在多個INDEX

output

(2)多種的定位方式
input

output

(3)數(shù)據(jù)透視表模式 .unstack() ? ? ?解開數(shù)據(jù)透視表模式 .stack()

output

(4) 復(fù)合index 和 復(fù)合columns 的情況,給 index 和 column 命名

output

(5) 多重index變換位置

out put

(6) sort_index(level=1) 按照那個level 進(jìn)行排序

(7)跟數(shù)據(jù)透視表一樣進(jìn)行橫排和縱排的sum

(8) 將frame的兩列作為index進(jìn)行計(jì)算,同樣類似于數(shù)據(jù)透視表

output

(9) 將columns 作為index,且仍然保持作為數(shù)據(jù)列 ,drop=false

output

(10) ?.reset_index 將層次性index釋放

output
