一、α多樣性分析的概念
α多樣性分析是反映生態(tài)系統(tǒng)內(nèi)物種的多樣性,包括豐富度和均勻度的綜合指標(biāo)。
豐富度:物種類別的多少,越豐富多樣性越高。
均勻度:不同物種的數(shù)目均勻程度,越均勻多樣性越高。
二、展示α多樣性常用的指數(shù)
【群落豐富度指數(shù)】Community richness
1、Chao指數(shù):是用chao1 算法估計(jì)群落中含OTU 數(shù)目的指數(shù),chao1 在生態(tài)學(xué)中常用來(lái)估計(jì)物種總數(shù),由Chao (1984) 最早提出。
2、Ace指數(shù):用來(lái)估計(jì)群落中含有OTU 數(shù)目的指數(shù),是生態(tài)學(xué)中估計(jì)物種總數(shù)的常用指數(shù)之一,與Chao1的算法不同。
Chao和Ace越大,說(shuō)明群落中含有的OTU數(shù)目越多,群落的豐富度越大。
【群落多樣性指數(shù)】Community diversity
1、Simpson指數(shù):是生態(tài)學(xué)中常用的一個(gè)指數(shù),它反映的是優(yōu)勢(shì)種在群落中的地位和作用,若一個(gè)群落中優(yōu)勢(shì)種占的多,其他非優(yōu)勢(shì)物種所占的比例則會(huì)減少,那么Simpson 指數(shù)值較大,這說(shuō)明群落多樣性較低,該指數(shù)與其他多樣性指數(shù)均呈負(fù)相關(guān)。
2、Shannon指數(shù):用來(lái)估算樣品中微生物的多樣性指數(shù)之一。它與Simpson 多樣性指數(shù)均為常用的α多樣性的指數(shù)。Shannon值越大,說(shuō)明群落多樣性越高(包括豐富度和均勻度)。
3、Coverage:是指各樣品文庫(kù)的覆蓋率,其數(shù)值越高,樣本中序列沒(méi)有被測(cè)出的概率越低。該指數(shù)反映了測(cè)序結(jié)果是否代表樣本的真實(shí)情況。
三、用R繪制箱線圖
1、一些設(shè)置和R包的安裝
如果已經(jīng)安裝了就可以跳過(guò)這部分。
#設(shè)置鏡像站點(diǎn)
options()$repos??## 查看使用install.packages安裝時(shí)的默認(rèn)鏡像
options()$BioC_mirror ##查看使用bioconductor的默認(rèn)鏡像
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") ##指定鏡像,這個(gè)是中國(guó)科技大學(xué)鏡像
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) ##指定install.packages安裝鏡像,這個(gè)是清華鏡像
#在Rstudio里面,Tool--Global Options--Packages選擇China (Beijing) [https] - TUNA Team, Tsinghua University
#直接在R安裝目錄下
setwd("D:/R-4.0.3/etc/")
shell.exec(file = "Rprofile.site")? ##打開文件夾修改文件內(nèi)容
#修改文件內(nèi)容如下
# set a CRAN mirror
local({r <- getOption(“repos”)
r[“CRAN”] <- “http://mirrors.tuna.tsinghua.edu.cn/CRAN/”
options(repos=r)}
# Install phyloseq from Bioconductor
if (!requireNamespace("BiocManager", quietly = TRUE))
??install.packages("BiocManager")
BiocManager::install()
BiocManager::install("phyloseq")
# Install the rest of the packages from CRAN
install.packages(c("vegan", "metacoder", "taxa", "ggplot2", "dplyr", "readr", "stringr", "agricolae", "ape"),
?????????????????repos = "http://cran.rstudio.com",
?????????????????dependencies = TRUE)
library(phyloseq)
library(taxa)
library(ggplot2)
library(dplyr)
library(readr)
library(stringr)
library(agricolae)
library(ape)
2、根據(jù)faith-pd值繪圖
(faith-pd也是一個(gè)反映種群豐富度的指數(shù))
PD score(phylogenetic diversity):PD score是結(jié)合OTUtable和OTU tree一同計(jì)算的??紤]到了樣本在進(jìn)化樹上的分布。一個(gè)OTU的來(lái)源越復(fù)雜,其PD score越高。來(lái)自進(jìn)化樹上不同的地方越多,其PD score越高。
#箱線圖-faith-pd-group-significance-metadata
data_faith <- read.table("D:/ilovestudy/faith-pd-group-significance-metadata.tsv",sep = "\t",header = TRUE)
## “header = TRUE”,指所讀取的excel數(shù)據(jù),第一行是否用作列名稱。true則excel第一行用于列名稱,具體數(shù)據(jù)從第二行開始;false則第一行即為具體數(shù)據(jù)。
head(data_faith,10)? ?## 查看 data_shannon 文件的前十行
p <- ggplot(data_faith,aes(SampleGroup,faith_pd)) + geom_boxplot(aes(fill=SampleGroup)) + theme_set(theme_bw())
## 將 SampleGroup 映射給x值,faith_pd 映射給y值
p???
# 展示 p 的內(nèi)容,也可寫作 print(p)
geom_boxplot(outlier.size = 0.7,outlier.alpha = 1,outlier.shape = 2,outlier.color = "red",outlier.fill = "pink")???
## 設(shè)置離群點(diǎn):outlier.size=大??;outlier.alpha=透明度;outlier.shape=形狀;color=顏色
3、根據(jù)shannon指數(shù)繪圖
#箱線圖-shannon-sig-metadata
data_shannon <- read.table("D:/ilovestudy/shannon-sig-metadata .tsv",sep = "\t",header = TRUE)
# “header = TRUE”,指所讀取的excel數(shù)據(jù),第一行是否用作列名稱。true則excel第一行用于列名稱,具體數(shù)據(jù)從第二行開始;false則第一行即為具體數(shù)據(jù)。
head(data_shannon,10)???
# 查看 data_shannon 文件的前十行
p <- ggplot(data_shannon,aes(SampleGroup,shannon_entropy)) + geom_boxplot(aes(fill=SampleGroup)) + theme_set(theme_bw())
# 將 SampleGroup 映射給x值,shannon_entropy 映射給y值
p???
# 打印 p 的內(nèi)容,也可寫作 print(p)
geom_boxplot(outlier.size = 0.7,outlier.alpha = 1,outlier.shape = 2,outlier.color = "red",outlier.fill = "pink")???
# 設(shè)置離群點(diǎn):outlier.size=大??;outlier.alpha=透明度;outlier.shape=形狀;color=顏色

參考: