從概念上講,冗余分析(redundancy analysis, RDA)是響應(yīng)變量矩陣與解釋變量矩陣之間多元多重線性回歸的擬合值矩陣的PCA分析,也是多響應(yīng)變量(multi-response)回歸分析的拓展。簡單一點來說,RDA是通過線性回歸分析結(jié)合主成分分析的排序方法,目的是尋找能最大程度解釋響應(yīng)變量矩陣變差的一些列的解釋變量的線性組合,也就是環(huán)境對于樣本的影響,因此RDA是被解釋變量約束的排序。對于算法的詳細(xì)介紹,就不在這里贅述了,可以參考以下鏈接:群落分析的冗余分析(RDA)概述 (qq.com)
下面介紹可以進行RDA的一個R包,生態(tài)學(xué)統(tǒng)計分析常用的vegan,官網(wǎng):https://github.com/vegandevs/vegan
在基因組環(huán)境關(guān)聯(lián)分析(GEA)中,常用到的是LFMM和RDA兩種方法,但是這里要講到的進化中的RDA和群落分析中的有一些區(qū)別,是RDA基因組掃描 RDA-based genome scan,論文:Evaluation of redundancy analysis to identify signatures of local adaptation。文章的腳本有上傳在GitHub,鏈接:https://github.com/Capblancq/RDA-genome-scan/blob/master/Script_RDA.R
0.安裝
> install.packages("remotes")
> remotes::install_github("vegandevs/vegan")
> library(vegan)
1.數(shù)據(jù)文件
RDA用到兩個文件,響應(yīng)變量(基因型數(shù)據(jù)、物種數(shù)據(jù)、細(xì)菌門水平豐度表等)和解釋變量(環(huán)境數(shù)據(jù):溫度、濕度、海拔、有機質(zhì)含量等)。
示例數(shù)據(jù):Dryad Data -- Evaluation of redundancy analysis to identify signatures of local adaptation (datadryad.org)
sim1.csv文件中包含環(huán)境數(shù)據(jù)和基因型數(shù)據(jù),直接讀?。?/p>
> data<-read.csv("sim1.csv",header = T)

第1列為分群信息,第2列到第11列為環(huán)境數(shù)據(jù),第12列到14列是表型數(shù)據(jù),14列之后是基因型數(shù)據(jù)。
1.1響應(yīng)變量
在本貼中用到的響應(yīng)數(shù)據(jù)是基因型數(shù)據(jù),即sim1中14列之后的數(shù)據(jù)。
#提取響應(yīng)數(shù)據(jù)
> geno<-data[,-c(1:14)]

1.2解釋變量
sim1.csv中的第2到11列為環(huán)境數(shù)據(jù)
> env<-data[,2:11]

2. RDA基因組掃描
> library("robustbase")
> library("robust")
> library("qvalue")
> rdadapt<-function(rda,K)
{
loadings<-rda$CCA$v[,1:as.numeric(K)]
resscale <- apply(loadings, 2, scale)
resmaha <- covRob(resscale, distance = TRUE, na.action= na.omit, estim="pairwiseGK")$dist
lambda <- median(resmaha)/qchisq(0.5,df=K)
reschi2test <- pchisq(resmaha/lambda,K,lower.tail=FALSE)
qval <- qvalue(reschi2test)
q.values_rdadapt<-qval$qvalues
return(data.frame(p.values=reschi2test, q.values=q.values_rdadapt))
}
3.冗余分析
3.1使用全部環(huán)境變量
> rda_all <- rda(geno~., env, scale = FALSE)
# 保留RDA中四個約束軸
> res_rdadapt<-rdadapt(rda_all, 4)
> row.names(res_rdadapt)<-colnames(geno)
> head(res_rdadapt)
p.values q.values
X 0.0002819648 0.01566471
X.1 0.3924069078 0.95071092
X.2 0.1651672760 0.92863749
X.3 0.1539308576 0.92863749
X.4 0.3538912022 0.95071092
X.5 0.7169689587 0.98712367
# 輸出SNP的p值和q值
> write.csv(res_rdadapt,"rda_pvalue.csv")
- geno:響應(yīng)變量
- ~.:省略寫法,表示將解釋變量中所有的環(huán)境因子都作為解釋變量,帶入RDA
- scale:響應(yīng)變量是否執(zhí)行標(biāo)準(zhǔn)化。當(dāng)有多個響應(yīng)變量,且量綱不一致時,推薦使用標(biāo)準(zhǔn)化scale = TRUE。
結(jié)果解讀:
> rda_all.scaling1 <- summary(rda_all, scaling = 1)
> rda_all.scaling1
如果對排序樣方之間的距離更感興趣,或者大多數(shù)解釋變量為因子類型,則考慮I型標(biāo)尺 scaling = 1;如果對變量之間的相關(guān)關(guān)系更感興趣,則考慮II型標(biāo)尺scaling = 2。

3.2使用部分環(huán)境變量
> rda_part <- rda(geno~envir1+envir3+envir5, env, scale = FALSE)
當(dāng)只考慮部分環(huán)境因子時,可在~后指定環(huán)境因子,不同的因子間用+連接。
3.3考慮環(huán)境變量間的互作
> rda_inter <- rda(geno~envir1+envir3+envir5+envir3*envir5, env, scale = FALSE)
因子間的互作用*表示,envir3 * envir5即envir3和envir5兩個因子間的互作。
4.結(jié)果繪制
> library("ggplot2")
> p1<- ggplot() +
geom_line(aes(x=c(1:length(rda_all$CCA$eig)), y=as.vector(rda_all$CCA$eig)), linetype="dotted", size = 1.5, color="darkgrey") +
geom_point(aes(x=c(1:length(rda_all$CCA$eig)), y=as.vector(rda_all$CCA$eig)), size = 3, color="darkgrey") +
scale_x_discrete(name = "Ordination axes", limits=c(1:9)) +
ylab("Inertia") +
theme_bw()

4.1RDA排序圖
根據(jù)是否展示物種向量,排序圖可分為雙序圖(僅展示樣方和環(huán)境變量二者關(guān)系)和三序圖(展示樣方、物種及環(huán)境變量三者關(guān)系)。
> plot(rda_all, scaling = 1, main = 'I 型標(biāo)尺', display = c('wa', 'sp', 'cn'))
RDA三序圖中將排序?qū)ο螅臃剑?,展示為“?biāo)簽點”;響應(yīng)變量(基因型)和解釋變量(環(huán)境變量)均以向量表示。
display參數(shù)用于定義在排序圖中展示哪些信息:
- wa:使用基因位點(物種)加權(quán)和計算的樣方坐標(biāo),
- sp:基因位點(物種);
- cn:約束成分(即解釋變量)

圖形解釋:群落分析的冗余分析(RDA)概述 (qq.com)
這個圖該有的信息都有了,就是不夠好看,美化一下。
> p2<- ggplot() +
geom_point(aes(x=rda_all$CCA$v[,1], y=rda_all$CCA$v[,2]), col = "gray86") +
geom_point(aes(x=rda_all$CCA$v[which(res_rdadapt[,2] < 0.1),1], y=rda_all$CCA$v[which(res_rdadapt[,2] < 0.1),2]), col = "orange") +
geom_segment(aes(xend=rda_all$CCA$biplot[,1]/10, yend=rda_all$CCA$biplot[,2]/10, x=0, y=0), colour="black", size=0.5, linetype=1, arrow=arrow(length = unit(0.02, "npc"))) +
geom_text(aes(x=1.2*rda_all$CCA$biplot[,1]/10, y=1.2*rda_all$CCA$biplot[,2]/10, label = colnames(env))) +
xlab("RDA 1") + ylab("RDA 2") +
theme_bw() +
theme(legend.position="none")

4.2Manhattan圖
> p3<- ggplot() +
geom_point(aes(x=c(1:length(res_rdadapt[,1])), y=-log10(res_rdadapt[,1])), col = "gray83") +
geom_point(aes(x=c(1:length(res_rdadapt[,1]))[which(res_rdadapt[,2] < 0.1)], y=-log10(res_rdadapt[which(res_rdadapt[,2] < 0.1),1])), col = "orange") +
xlab("SNPs") + ylab("-log10(p.values)") +
theme_bw()
# 此處篩選標(biāo)準(zhǔn)為q<0.1為顯著位點,可根據(jù)自己的數(shù)據(jù)進行調(diào)整

#篩選顯著位點
> rda_sig_snp<-subset(res_rdadapt,res_rdadapt$q.values < 0.1)
> head(rda_sig_snp)
p.values q.values
X 2.819648e-04 1.566471e-02
X.10 1.497575e-06 1.069696e-04
X.20 2.065122e-08 2.065122e-06
X.30 4.986654e-04 2.624555e-02
X.40 3.810703e-05 2.381690e-03
X.50 5.882242e-05 3.460142e-03
> write.csv(rda_sig_snp,"rda_sig_snp.csv",row.names = T)
4.3圖形排列
> library(ggpubr)
> ggarrange(ggarrange(p1, p2, ncol = 2, labels = c("A", "B")),
ggarrange(p3,ncol = 1, labels = c("C")),
nrow = 2)

引用轉(zhuǎn)載請注明出處,如有錯誤敬請指出。