pyWGCNA數(shù)據(jù)準備

這是進行任何網(wǎng)絡(luò)分析的第一步。我們在這里展示如何加載典型的表達數(shù)據(jù),將其預(yù)處理成適用于網(wǎng)絡(luò)分析的格式,并通過刪除明顯的異常樣本和基因來清理數(shù)據(jù)。

Input data format

我們將原始表達數(shù)據(jù)以及相關(guān)信息以AnnData格式存儲在名為geneExpr的變量中?;虮磉_數(shù)據(jù)、基因元數(shù)據(jù)和樣本元數(shù)據(jù)可以作為 AnnData 對象一起傳遞給 PyWGCNA,也可以分別作為一系列矩陣傳遞。

AnnData 數(shù)據(jù)格式

如果您已經(jīng)將表達數(shù)據(jù)存儲在 AnnData 格式中,您可以通過將變量以 AnnData 格式傳遞來定義 PyWGCNA 對象。請注意,AnnData.X 應(yīng)該是表達矩陣,AnnData.var 應(yīng)該包含每個基因的信息,而 AnnData.obs 應(yīng)該包含每個樣本的信息。您可以在此處閱讀有關(guān) AnnData 格式的更多信息。點擊這里-->

基因表達、樣本元數(shù)據(jù)和基因元數(shù)據(jù)的單獨矩陣

用戶可以傳遞各自的文件路徑,分別用于基因表達、樣本元數(shù)據(jù)和基因元數(shù)據(jù),格式如下所示。

基因表達矩陣

表達矩陣應(yīng)按照樣本對應(yīng)行,基因?qū)?yīng)列的格式進行排列。第一列應(yīng)表示樣本ID或樣本名稱。接下來的列應(yīng)包含唯一的基因ID或基因名稱。

sample_id ENSMUSG00000000003 ENSMUSG00000000028 ENSMUSG00000000031 ENSMUSG00000000037
sample_11615 12.04 11.56 16.06 13.18
sample_11616 1.35 1.63 1.28 1

Gene metadata

基因元數(shù)據(jù)是一個表格,包含有關(guān)每個基因的其他信息,例如基因生物類型或基因長度。每一行應(yīng)表示一個基因,每一列應(yīng)表示一個基因特征,其中第一列包含與基因表達矩陣中使用的相同基因標(biāo)識符。行的順序應(yīng)與基因表達矩陣的列相同,或者用戶可以指定 order=False。

gene_id gene_name gene_type
ENSMUSG00000000003 Pbsn protein_coding
ENSMUSG00000000028 Cdc45 protein_coding
ENSMUSG00000000031 H19 lncRNA
ENSMUSG00000000037 Scml2 protein_coding

Sample metadata

樣本元數(shù)據(jù)是一個表格,包含有關(guān)每個樣本的其他信息,例如時間點或基因型。每一行應(yīng)表示一個樣本,每一列應(yīng)表示一個元數(shù)據(jù)特征,其中第一列包含與基因表達矩陣中使用的相同樣本標(biāo)識符。行的順序應(yīng)與基因表達矩陣的行相同,或者用戶可以指定 order=False。

Sample_id Age Tissue Sex Genotype
sample_11615 4mon Cortex Female 5xFADHEMI
sample_11616 4mon Cortex Female 5xFADWT

其他參數(shù)

以下是可以指定的其他參數(shù)。

  • name: 用于可視化數(shù)據(jù)的WGCNA的名稱(默認:WGCNA
  • save: 是否保存重要步驟的結(jié)果(如果要設(shè)置為True,您應(yīng)該對輸出目錄具有寫訪問權(quán)限)
  • outputPath: 要保存數(shù)據(jù)的位置,否則將存儲在與代碼相同的目錄中。
  • TPMcutoff: 用于刪除基因的TPM截斷值
  • networkType: 生成網(wǎng)絡(luò)的類型({unsignedsigned,signed hybrid},默認:signed hybrid
  • adjacencyType: 使用的鄰接矩陣類型({unsigned,signed,signed hybrid},默認:signed hybrid
  • TOMType: 使用的拓撲重疊矩陣(TOM)的類型({unsigned,signed},默認:signed

有關(guān)這些參數(shù)的詳細文檔,請參閱此處

數(shù)據(jù)清理和預(yù)處理

PyWGCNA可以根據(jù)以下標(biāo)準清理輸入數(shù)據(jù):

  1. 刪除所有樣本中表達量低于TPMcutoff值(默認值)的基因。
  2. 使用goodSamplesGenes()函數(shù)查找具有過多缺失值的基因和樣本。
  3. 對樣本進行聚類(使用來自scipyhierarchical clustering),以查看是否存在明顯的異常值。用戶可以通過指定cut值來定義層次聚類的高度。默認情況下,通過層次聚類不刪除任何樣本。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容