一個(gè)記錄,第三部分從13章開(kāi)始,共4章的內(nèi)容,一起看看吧。
第13章 初級(jí)統(tǒng)計(jì)學(xué)
- 描述原始數(shù)據(jù)
- 統(tǒng)計(jì)概要
第14章 數(shù)據(jù)可視化基礎(chǔ)
- 條形圖和餅圖
- 直方圖
- 箱線圖
- 散點(diǎn)圖
第15章 概率
- 什么是概率
- 隨機(jī)變量和概率分布
第16章 常見(jiàn)的概率分布
- 常見(jiàn)的概率質(zhì)量函數(shù)
- 常見(jiàn)的概率密度函數(shù)
首先是
第13章 初級(jí)統(tǒng)計(jì)學(xué)—描述原始數(shù)據(jù)
原始數(shù)據(jù)即是相關(guān)樣本的觀測(cè)值或者記錄值,其可以存儲(chǔ)在各種對(duì)象,如數(shù)據(jù)框中,讀入R內(nèi)。
數(shù)值型變量分為連續(xù)型和離散型
分類變量 分為名義變量和有序變量兩種形式,名義變量是不能按照邏輯順序排序的分類變量,如性別,有男女兩個(gè)固定值并且這兩個(gè)類別的順序不相關(guān)。有序變量是指可以排序的分類變量,如藥物劑量可能取值是低中高,這些數(shù)值按照升序或者降序進(jìn)行排序,并且順序可能與實(shí)驗(yàn)相關(guān)。
單變量和多變量數(shù)據(jù),單變量即一維,多變量即多維。
參數(shù)和統(tǒng)計(jì)量 ,區(qū)分統(tǒng)計(jì)量和參數(shù)的關(guān)鍵是確定特征數(shù)描述的是我們可以用來(lái)獲得數(shù)據(jù)的樣本還是總體。
集中趨勢(shì):均值、中位數(shù)、眾數(shù),集中趨勢(shì)通過(guò)描述型觀測(cè)值的中心來(lái)解釋大量數(shù)據(jù)集合,最常見(jiàn)的是用算術(shù)平均數(shù)來(lái)測(cè)度中心趨勢(shì),也就是觀測(cè)值集合的中心平衡點(diǎn)。
中位數(shù)是觀測(cè)值的中等大小,將觀測(cè)值按照從小到大排序,會(huì)發(fā)現(xiàn)中位數(shù)要么是中間值(奇數(shù)個(gè)觀測(cè)值),要么是兩個(gè)中間值的均值(偶數(shù)個(gè)觀測(cè)值)。
眾數(shù)是指出現(xiàn)最頻繁的觀測(cè)值,常用于離散型數(shù)據(jù)。
mean() #平均值
medium() #中位數(shù)
min() #最小值
max() #最大值
table() # 求眾數(shù),會(huì)輸出頻數(shù)
如果數(shù)據(jù)集中有缺失值或者有未定義的變量(NA或NaN),R中的許多函數(shù)無(wú)法從這樣的數(shù)據(jù)結(jié)構(gòu)中計(jì)算出統(tǒng)計(jì)量。我們可以使用參數(shù)na.rm 設(shè)置為T(mén)RUE,可以強(qiáng)制函數(shù)只作用于數(shù)據(jù)集中的數(shù)值型數(shù)據(jù)。
> mean(c(1,4,NA,NaN),na.rm=TRUE)
> 2.5
#函數(shù)諸如sum、prod、mean、medium、max、min、和range等在數(shù)字向量的基礎(chǔ)上計(jì)算數(shù)字統(tǒng)計(jì)量的任何函數(shù),都可以使用參數(shù)na.rm
關(guān)于R語(yǔ)言中apply函數(shù)族可以參考http://blog.fens.me/r-apply/
"tapply函數(shù)用于分組的循環(huán)計(jì)算,通過(guò)INDEX參數(shù)可以把數(shù)據(jù)集X進(jìn)行分組,相當(dāng)于group by的操作。
函數(shù)定義:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)參數(shù)列表:
X: 向量
INDEX: 用于分組的索引
FUN: 自定義的調(diào)用函數(shù)
…: 接收多個(gè)數(shù)據(jù)
simplify : 是否數(shù)組化,當(dāng)值array時(shí),輸出結(jié)果按數(shù)組進(jìn)行分組

tapply(chickwts$weight, INDEX=chickwts$feed,FUN = mean)
#chickwts$weight 是R內(nèi)置數(shù)據(jù)框中的體重向量,參數(shù)INDEX是分組變量,以chickwts$feed 為分組,參數(shù)FUN為函數(shù)名,F(xiàn)UN = mean 為平均值
casein horsebean linseed meatmeal soybean sunflower
323.5833 160.2000 218.7500 276.9091 246.4286 328.9167
計(jì)數(shù)、百分比和比例
四分位數(shù)、百分位數(shù)、五分位數(shù)概括法
quatile 函數(shù)可以求得分位數(shù)和百分位數(shù)。
離散程度:方差、標(biāo)準(zhǔn)差和四分位差
樣本方差用來(lái)測(cè)度觀測(cè)值在算術(shù)平均數(shù)周?chē)碾x散程度。方差(var)是每個(gè)觀測(cè)值與平均數(shù)之間距離的均方平方和。標(biāo)準(zhǔn)差(sd)是方差平方根,因?yàn)榉讲畲砥骄嚯x的平方,所以標(biāo)準(zhǔn)差可用于解釋原始觀測(cè)值的規(guī)模。四分位差(IQR)用以測(cè)度中間50%數(shù)據(jù)的寬度,也就是中位數(shù)兩側(cè)0.25分位數(shù)之間的距離。
協(xié)方差表示兩個(gè)數(shù)值型變量在什么程度上“一起變化”,兩者之間是正相關(guān)關(guān)系還是負(fù)相關(guān)關(guān)系。假設(shè)由n個(gè)觀測(cè)值構(gòu)成樣本,兩個(gè)變量的取值分別是x={x1,x2,....,xn},y={y1,y2,....,yn}(i=1,....,n),xi與yi相對(duì)應(yīng)。相關(guān)系數(shù)可從相關(guān)關(guān)系的方向和強(qiáng)度兩方面進(jìn)一步解釋協(xié)方差。有幾種不同類型的相關(guān)系數(shù),最常用的是Pearson相關(guān)系數(shù),Pearson樣本相關(guān)系數(shù)ρ,函數(shù)cov和cor計(jì)算樣本協(xié)方差和相關(guān)系數(shù)。
奇異值是看起來(lái)和其余數(shù)據(jù)不匹配的觀測(cè)值。當(dāng)與其他大量數(shù)據(jù)相比較時(shí),它是一個(gè)顯著的極端值。
其次是
第14章 數(shù)據(jù)可視化基礎(chǔ)
條形圖
> mtcars[1:5,] #先查看R數(shù)據(jù)集mtcars1到5行的數(shù)據(jù)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
> cyl.freq <- table(mtcars$cyl) # 提取mtcars中cyl列的汽車(chē)數(shù)量有多少
> cyl.freq
#有4、6、8 個(gè)cyl,分別有11、7、14輛汽車(chē)
4 6 8
11 7 14
> barplot(cyl.freq) #barplot函數(shù)制作條形圖

table(mtcars$cyl[mtcars$am==0]) #am有0和1的區(qū)別,根據(jù)cyl和am來(lái)得到汽車(chē)數(shù)量
4 6 8
3 4 12
> table(mtcars$cyl[mtcars$am==1])
4 6 8
8 3 2
> cyl.freq.matrix <- table(mtcars$am,mtcars$cyl) #得到矩陣行、列
> cyl.freq.matrix #矩陣2行3列,
4 6 8
0 3 4 12
1 8 3 2
> barplot(cyl.freq.matrix,beside=TRUE ,horiz=TRUE,las=1,
main="Performance car counts\nby transmission and cylinders",
names.arg=c("V4","V6","V8"),
legend.text=c("auto","manual"),
args.legend=list(x="bottomright"))

用ggplot2包也可以繪制此類圖形
library("ggplot2")
qplot(factor(mtcars$cyl),geom="bar") #qplot繪圖

qplot(factor(mtcars$cyl),
+ geom="blank",fill=factor(mtcars$am),
+ xlab="",ylab="",
+ main="Performance car counts\nby transmission and cylinders") + geom_bar(position="dodge") + scale_x_discrete(labels=c("V4","V6","V8")) + scale_y_continuous(breaks=seq(0,12,2))+theme_bw()+coord_flip() + scale_fill_grey(name="Trans.",labels=c("auto","manual"))

ggplot是需要重點(diǎn)掌握的一個(gè)R包
餅圖基于頻率的類別變量,表示每個(gè)類別變量的相對(duì)計(jì)數(shù)部分