R中可以處理因子的一切-forcats包(二)

library(tidyverse)

rm(list = ls()) 
options(stringsAsFactors = T)

#構(gòu)建測試數(shù)據(jù)集
df  <- forcats::gss_cat%>%
  select(c("rincome", "denom"))
head(df,3)
數(shù)據(jù)集情況
# 對df的每一列都使用`levels()`函數(shù)
lapply(df, levels) 
查看每列的分類情況
#查看每列分類分布個數(shù)
lapply(df,fct_count)
這個功能比較好,能看到個數(shù)分布情況
#查看每列分類分布比例
lapply(df,fct_count,prop = T)
這個功能更好了,可以看到分布比例小于0.1的變量
# 對df的每一列使用`fct_relevel(..., "Don't know", after = Inf)`
df2 <- lapply(df, fct_relevel, "Don't know", after = Inf) 
lapply(df2, levels) # 可以看到"Don't know"都被排在最后了
批量relevel感覺可能不太實用
# 3. 按照因子因素進(jìn)行排序----------------------------------------------------------------------

# fct_inorder(): 按照第一次出現(xiàn)的順序
# 
# fct_infreq(): 按照每個水平出現(xiàn)的頻率(從大到?。?# 
# fct_inseq(): 按照數(shù)字大小

f <- factor(c("b", "b", "a", "c", "c", "c"))
f #默認(rèn)按字母順序
默認(rèn)按照字母順序要牢記
fct_inorder(f) # 按第一次出現(xiàn)的順序
第一次出現(xiàn)的順序一般沒啥意義,所以覺得不太實用
fct_infreq(f) # 按出現(xiàn)的頻率從大到小排列
一般經(jīng)常以頻率最高的為參考組,所以這個功能比較有用
f <- factor(1:3, levels = c("3", "2", "1"))
fct_inseq(f) # 按照數(shù)字順序排列,雖然你定義的順序是"3", "2", "1"

按照從小到大的順序排序
#繪圖展示
starwars%>%
  filter(!is.na(hair_color))%>%
  ggplot(aes(x = hair_color,fill = hair_color))+
  geom_bar() + 
  coord_flip()
原始圖,刪除缺失是因為缺失會始終排在第一個
#按照頻率排序
starwars%>%
  filter(!is.na(hair_color))%>%
  ggplot(aes(x = fct_infreq(hair_color),fill = hair_color))+
  geom_bar() + 
  coord_flip()

按照頻率排序,看這里順多了
# 4. reorder函數(shù)操作,按照其他列順序進(jìn)行操作----------------------------------------------------------------------
 #生成一個簡單的tibble
df <- tibble::tribble(
  ~color,     ~a, ~b,
  "blue",      1,  2,
  "green",     6,  2,
  "purple",    3,  3,
  "red",       2,  3,
  "yellow",    5,  1
)
模擬數(shù)據(jù)集
df$color <- factor(df$color)
df$color
默認(rèn)順序
# 按照a這一列從小到大的順序,排序color這一列,
# 可以看到color的levels已經(jīng)變了
fct_reorder(df$color, df$a, min)
按照a列的大小對顏色列進(jìn)行排序
#fct_reorder()用于畫圖小例子
boxplot(Sepal.Width ~ Species, data = iris)
boxplot(Sepal.Width ~ fct_reorder(Species, Sepal.Width), data = iris)
boxplot(Sepal.Width ~ fct_reorder(Species, Sepal.Width, .desc = TRUE), data = iris)

原始圖像

按照Y軸排序

降序排序
#fct_reorder2的例子
chks <- subset(ChickWeight, as.integer(Chick) < 10)
chks <- transform(chks, Chick = fct_shuffle(Chick))
chks
數(shù)據(jù)集
ggplot(chks, aes(Time, weight, colour = Chick)) +
  geom_point() +
  geom_line()
原始圖片
# 圖例的順序和線的順序一樣
ggplot(chks, aes(Time, weight, colour = fct_reorder2(Chick, Time, weight))) +
  geom_point() +
  geom_line() +
  labs(colour = "Chick")
順序一樣了,其實我也不太理解
#將因子水平左右移動,默認(rèn)向左移
x <- factor(
  c("Mon", "Tue", "Wed"),
  levels = c("Sun", "Mon", "Tue", "Wed", "Thu", "Fri", "Sat"),
  ordered = TRUE
)
x
原始因子水平
fct_shift(x)
默認(rèn)移動到最左側(cè)
fct_shift(x, 2)
移動超過邊界后會從最后再開始
fct_shift(x, -1)#向右移動
這個有用
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容