R筆記之《R語(yǔ)言之書(shū)-編程與統(tǒng)計(jì)》第三部分 統(tǒng)計(jì)學(xué)與概率

一個(gè)記錄,第三部分從13章開(kāi)始,共4章的內(nèi)容,一起看看吧。

第13章 初級(jí)統(tǒng)計(jì)學(xué)

  • 描述原始數(shù)據(jù)
  • 統(tǒng)計(jì)概要

第14章 數(shù)據(jù)可視化基礎(chǔ)

  • 條形圖和餅圖
  • 直方圖
  • 箱線圖
  • 散點(diǎn)圖

第15章 概率

  • 什么是概率
  • 隨機(jī)變量和概率分布

第16章 常見(jiàn)的概率分布

  • 常見(jiàn)的概率質(zhì)量函數(shù)
  • 常見(jiàn)的概率密度函數(shù)

首先是

第13章 初級(jí)統(tǒng)計(jì)學(xué)—描述原始數(shù)據(jù)

原始數(shù)據(jù)即是相關(guān)樣本的觀測(cè)值或者記錄值,其可以存儲(chǔ)在各種對(duì)象,如數(shù)據(jù)框中,讀入R內(nèi)。
數(shù)值型變量分為連續(xù)型離散型
分類變量 分為名義變量有序變量兩種形式,名義變量是不能按照邏輯順序排序的分類變量,如性別,有男女兩個(gè)固定值并且這兩個(gè)類別的順序不相關(guān)。有序變量是指可以排序的分類變量,如藥物劑量可能取值是低中高,這些數(shù)值按照升序或者降序進(jìn)行排序,并且順序可能與實(shí)驗(yàn)相關(guān)。
單變量多變量數(shù)據(jù),單變量即一維,多變量即多維。
參數(shù)統(tǒng)計(jì)量 ,區(qū)分統(tǒng)計(jì)量和參數(shù)的關(guān)鍵是確定特征數(shù)描述的是我們可以用來(lái)獲得數(shù)據(jù)的樣本還是總體。
集中趨勢(shì):均值、中位數(shù)、眾數(shù),集中趨勢(shì)通過(guò)描述型觀測(cè)值的中心來(lái)解釋大量數(shù)據(jù)集合,最常見(jiàn)的是用算術(shù)平均數(shù)來(lái)測(cè)度中心趨勢(shì),也就是觀測(cè)值集合的中心平衡點(diǎn)。
中位數(shù)是觀測(cè)值的中等大小,將觀測(cè)值按照從小到大排序,會(huì)發(fā)現(xiàn)中位數(shù)要么是中間值(奇數(shù)個(gè)觀測(cè)值),要么是兩個(gè)中間值的均值(偶數(shù)個(gè)觀測(cè)值)。
眾數(shù)是指出現(xiàn)最頻繁的觀測(cè)值,常用于離散型數(shù)據(jù)。

mean() #平均值
medium()  #中位數(shù)
min() #最小值
max() #最大值
table() # 求眾數(shù),會(huì)輸出頻數(shù)

如果數(shù)據(jù)集中有缺失值或者有未定義的變量(NA或NaN),R中的許多函數(shù)無(wú)法從這樣的數(shù)據(jù)結(jié)構(gòu)中計(jì)算出統(tǒng)計(jì)量。我們可以使用參數(shù)na.rm 設(shè)置為T(mén)RUE,可以強(qiáng)制函數(shù)只作用于數(shù)據(jù)集中的數(shù)值型數(shù)據(jù)。

> mean(c(1,4,NA,NaN),na.rm=TRUE)
> 2.5

#函數(shù)諸如sum、prod、mean、medium、max、min、和range等在數(shù)字向量的基礎(chǔ)上計(jì)算數(shù)字統(tǒng)計(jì)量的任何函數(shù),都可以使用參數(shù)na.rm

關(guān)于R語(yǔ)言中apply函數(shù)族可以參考http://blog.fens.me/r-apply/
"tapply函數(shù)用于分組的循環(huán)計(jì)算,通過(guò)INDEX參數(shù)可以把數(shù)據(jù)集X進(jìn)行分組,相當(dāng)于group by的操作。
函數(shù)定義:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

參數(shù)列表:
X: 向量
INDEX: 用于分組的索引
FUN: 自定義的調(diào)用函數(shù)
…: 接收多個(gè)數(shù)據(jù)
simplify : 是否數(shù)組化,當(dāng)值array時(shí),輸出結(jié)果按數(shù)組進(jìn)行分組

tapply(chickwts$weight, INDEX=chickwts$feed,FUN = mean)
#chickwts$weight 是R內(nèi)置數(shù)據(jù)框中的體重向量,參數(shù)INDEX是分組變量,以chickwts$feed 為分組,參數(shù)FUN為函數(shù)名,F(xiàn)UN = mean 為平均值
   casein horsebean   linseed  meatmeal   soybean sunflower 
 323.5833  160.2000  218.7500  276.9091  246.4286  328.9167

計(jì)數(shù)、百分比和比例
四分位數(shù)、百分位數(shù)、五分位數(shù)概括法
quatile 函數(shù)可以求得分位數(shù)和百分位數(shù)。
離散程度:方差、標(biāo)準(zhǔn)差和四分位差
樣本方差用來(lái)測(cè)度觀測(cè)值在算術(shù)平均數(shù)周?chē)碾x散程度。方差(var)是每個(gè)觀測(cè)值與平均數(shù)之間距離的均方平方和。標(biāo)準(zhǔn)差(sd)是方差平方根,因?yàn)榉讲畲砥骄嚯x的平方,所以標(biāo)準(zhǔn)差可用于解釋原始觀測(cè)值的規(guī)模。四分位差(IQR)用以測(cè)度中間50%數(shù)據(jù)的寬度,也就是中位數(shù)兩側(cè)0.25分位數(shù)之間的距離。
協(xié)方差表示兩個(gè)數(shù)值型變量在什么程度上“一起變化”,兩者之間是正相關(guān)關(guān)系還是負(fù)相關(guān)關(guān)系。假設(shè)由n個(gè)觀測(cè)值構(gòu)成樣本,兩個(gè)變量的取值分別是x={x1,x2,....,xn},y={y1,y2,....,yn}(i=1,....,n),xi與yi相對(duì)應(yīng)。相關(guān)系數(shù)可從相關(guān)關(guān)系的方向和強(qiáng)度兩方面進(jìn)一步解釋協(xié)方差。有幾種不同類型的相關(guān)系數(shù),最常用的是Pearson相關(guān)系數(shù),Pearson樣本相關(guān)系數(shù)ρ,函數(shù)cov和cor計(jì)算樣本協(xié)方差和相關(guān)系數(shù)。
奇異值是看起來(lái)和其余數(shù)據(jù)不匹配的觀測(cè)值。當(dāng)與其他大量數(shù)據(jù)相比較時(shí),它是一個(gè)顯著的極端值。

其次是

第14章 數(shù)據(jù)可視化基礎(chǔ)

條形圖

> mtcars[1:5,]    #先查看R數(shù)據(jù)集mtcars1到5行的數(shù)據(jù)
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
> cyl.freq <- table(mtcars$cyl) # 提取mtcars中cyl列的汽車(chē)數(shù)量有多少

> cyl.freq
#有4、6、8 個(gè)cyl,分別有11、7、14輛汽車(chē)
 4  6  8 
11  7 14 
> barplot(cyl.freq)   #barplot函數(shù)制作條形圖
table(mtcars$cyl[mtcars$am==0]) #am有0和1的區(qū)別,根據(jù)cyl和am來(lái)得到汽車(chē)數(shù)量

 4  6  8 
 3  4 12 
> table(mtcars$cyl[mtcars$am==1])

4 6 8 
8 3 2 
> cyl.freq.matrix <- table(mtcars$am,mtcars$cyl) #得到矩陣行、列
> cyl.freq.matrix   #矩陣2行3列,
   
     4  6  8
  0  3  4 12
  1  8  3  2
> barplot(cyl.freq.matrix,beside=TRUE ,horiz=TRUE,las=1,
main="Performance car counts\nby transmission and cylinders",
names.arg=c("V4","V6","V8"),
legend.text=c("auto","manual"),
args.legend=list(x="bottomright"))

用ggplot2包也可以繪制此類圖形

library("ggplot2")
qplot(factor(mtcars$cyl),geom="bar") #qplot繪圖
qplot(factor(mtcars$cyl),
+       geom="blank",fill=factor(mtcars$am),
+       xlab="",ylab="",
+       main="Performance car counts\nby transmission and cylinders") + geom_bar(position="dodge") + scale_x_discrete(labels=c("V4","V6","V8")) + scale_y_continuous(breaks=seq(0,12,2))+theme_bw()+coord_flip() + scale_fill_grey(name="Trans.",labels=c("auto","manual")) 


ggplot是需要重點(diǎn)掌握的一個(gè)R包

餅圖基于頻率的類別變量,表示每個(gè)類別變量的相對(duì)計(jì)數(shù)部分

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容