原創(chuàng)文地址:https://mp.weixin.qq.com/s/URD3Lz69fY8CKdKT3IcNJQ
“ 本章節(jié)是數(shù)據(jù)預(yù)處理的第一步:了解數(shù)據(jù)(集)。只有充分了解了數(shù)據(jù),我們才能對(duì)數(shù)據(jù)做進(jìn)一步的預(yù)處理和后續(xù)深入的分析。”
目錄
1 數(shù)據(jù)結(jié)構(gòu)
str()
dim()
head()
2 描述性統(tǒng)計(jì)分析
summary()
psych::describe()
分組計(jì)算doBy::summaryBy
分組計(jì)算psych::describeBy
3 頻數(shù)和列聯(lián)表
table 一維計(jì)數(shù)
xtabs 多維(交叉)計(jì)數(shù)
gmodels::CrossTable #列聯(lián)表
01
—
數(shù)據(jù)結(jié)構(gòu)
嚴(yán)格來講“數(shù)據(jù)結(jié)構(gòu)”不是基本統(tǒng)計(jì)分析的內(nèi)容,但是這是了解數(shù)據(jù)的第一步,因此這里做簡單普及!推薦使用str()函數(shù)
class() # 數(shù)據(jù)類型
圖1 View(mtcars)
> data(mtcars)
> str(mtcars)
02
—
描述性統(tǒng)計(jì)分析
描述性統(tǒng)計(jì)分析主要是認(rèn)識(shí)數(shù)據(jù)的整體狀況,例如是否缺失、均值、方差、中位數(shù)等描述性統(tǒng)計(jì)變量。推薦使用****summary()、psych::describe()
## 描述統(tǒng)計(jì)
summary()函數(shù)提供了最小值、最大值、四分位數(shù)、均值,另外還可以因子向量和邏輯型向量的頻數(shù)統(tǒng)計(jì)。
> summary(mtcars)
psych::describe(mtcars) #推薦使用
> psych::describe(mtcars)
分組計(jì)算的擴(kuò)展,doBy包和psych包提供了分組計(jì)算的描述性統(tǒng)計(jì)量的函數(shù),doBy包中的summaryBy()函數(shù)使用的基本格式:
# doBy()包中summaryBy()函數(shù)的使用格式:
library(psych)
03
—
頻數(shù)和列聯(lián)表
推薦學(xué)習(xí)使用table****、xtabs、gmodels::CrossTable
## 2.頻數(shù)和列聯(lián)表
示例
> ## 2.頻數(shù)和列聯(lián)表
“ 獲取源代碼請(qǐng)至”數(shù)據(jù)驅(qū)動(dòng)實(shí)踐“公眾號(hào)后臺(tái)回復(fù):20200524”
【往期回顧推薦】
用R語言讓你的可視化圖表動(dòng)起來!動(dòng)起來!!附源代碼
R語言 相關(guān)系數(shù)混合可視化矩陣實(shí)現(xiàn)
《R數(shù)據(jù)科學(xué)》是一本專門講解tidyverse相關(guān)包的書籍,主要涉及dplyr、tidyr、ggplot2、purrr等,非常值得學(xué)習(xí),基本上此一本書可以解答數(shù)據(jù)處理的大部分問題