「R基礎」如何讀取大文件的部分內(nèi)容

同理心

在小丫畫圖交付的一個代碼項目中,需要先從XENA下載一個表達量數(shù)據(jù):https://toil.xenahubs.net/download/tcga_RSEM_gene_tpm.gz

樣本大概是10,5,35個, 考慮到人類的基因大概有2w多個,那么這就是一個10000 X 20000的大樣本數(shù)據(jù),鑒于這還是一個TPM,數(shù)據(jù)類型是浮點型,文件解壓縮之后就是4.61G, 如果全部加載到R語言中,大部分的電腦估計都受不了

library(pryr)
test <- data.table::fread("./tcga_RSEM_gene_tpm.gz")
object_size(test)
# 5.11 GB

考慮到并非所有數(shù)據(jù)都是我們所需要的,是否可以只讀取部分的數(shù)據(jù)呢?原作者的解決方案是通過R調(diào)用命令行的方式,提取部分數(shù)據(jù),然后讓R語言進行加載。

system命令

可是大部分人的操作系統(tǒng)都是Windows,所有運行的時候就會報錯,能不能就用戶R語言解決這個問題呢?當然可以,只要你認真讀過read.table的那么多參數(shù),你就會知道他的那么多參數(shù)并不是裝飾用的。

讀取前幾行

讓我們先學習一個簡單的參數(shù)nrows, 他的作用就是讀取前N行,知道它之后,那就不需要去調(diào)用head

headtcga <- read.table("./tcga_RSEM_gene_tpm",
                       sep = "\t",
                       stringsAsFactors = FALSE,
                       nrow = 1)

效果就是讀取第一行,構(gòu)建一個數(shù)據(jù)框,然后將其轉(zhuǎn)成向量。但既然目標是向量,其實還有另一種實現(xiàn)方案,readLines讀取的就是一個字符串,然后將其分隔成向量即可。

headtcga <- readLines("tcga_RSEM_gene_tpm", n =1)
headtcga <- strsplit(headtcga, split="\t")[[1]]

讀取指定列

讀取指定列會稍微困難一些,因為colClasses不太好理解。R語言在用read.table讀取數(shù)據(jù)的時候其實做了很多事情,有一件事情就是負責確認每一列的數(shù)據(jù)類型,R語言需要根據(jù)不同數(shù)據(jù)類型進行內(nèi)存分配。

如果你想實現(xiàn)讀取指定列,那么你就得自己去設置每一列的數(shù)據(jù)類型。如果哪些列不需要,就將其它的數(shù)據(jù)類型定義為NULL,R語言就會忽略它。

讀取代碼如下:

cat(paste0("Begin at ", Sys.time(),"\n"))
first_5_rows <- read.table("./tcga_RSEM_gene_tpm", nrows = 5,
                           stringsAsFactors = FALSE, 
                           header = FALSE,
                           skip = 1,
                           check.names = FALSE)
classes <- sapply(first_5_rows, class)
 # targetnum 你需要讀取的列
classes[-targetnum] <- rep("NULL", length(classes) - length(targetnum)) #將非目標列定義為NULL
classes[1] <- "character" # 加上第一列
# 讀取文件(跳過第一行)
targetCancerTPM <- read.table("tcga_RSEM_gene_tpm",  
                   sep= "\t", 
                   skip = 1,
                   colClasses = classes)
colnames(targetCancerTPM) <- tcgasample[targetnum]
targetCancerTPM[1:3, 1:3]
cat(paste0("End at ", Sys.time(),"\n"))

如果僅讀取我們需要的列的話,最終只消耗了500M的內(nèi)存,相對于之前的5G內(nèi)存,減少了將近10倍。

讀取指定行和指定列

這就是需要對文件進行逐行讀取解析了,我用readLines造了一個輪子,函數(shù)名為read_part,目前能用的參數(shù)為

  • file: 輸入的文件路徑,支持.gz文件
  • rows: 讀取指定行, 比如說1:100, 就是前100行。當為-1時則是讀取所有行
  • rows: 讀取指定列, 比如說c(1,3,4,5,6), 就是1,3,4,5,6列。當為-1時則是讀取所有列
  • comment.char = "#", 會把"#"開頭的行忽略掉,這個參數(shù)我還需要考慮下是否保留。
# 函數(shù)目標:
# 讀取文件中的指定行和指定列
# 不包括注釋行
read_part <- function(file, rows = 1, columns = -1, sep = "\t",
                      stringsAsFactors = FALSE,
                      header = FALSE,
                      check.names = FALSE, 
                      comment.char = "#", ...){
  dfl <- list()
  if (grepl("gz$", file)){
    con <- gzfile(file, open = "rb")
  } else{
    con <- file(file, open = "r")
  }
  
  i <- 0
  j <- 1
  repeat{
    
    rec <- readLines(con, 1)
    if (length(rec) == 0) break
    i <- i + 1
 
    # 當rows = -1時, 會讀取所有行 
    # 超過目標行時停止讀取
    if (i > max(rows) & rows != -1) break  
    # 不考慮注釋行
    if (grepl(comment.char, rec )) next
    if ( ! i %in% rows & rows != -1) next
    
    items <- strsplit(rec, split = sep, fixed = TRUE)[[1]]
    if ( columns == -1){
      select_cols <- items
    } else{
      select_cols <- items[columns]
    }
    #print(select_cols)
    dfl[[j]] <- select_cols
    j <- j + 1
    
    
  }
  close(con) 
  df <- do.call(rbind, dfl)
  return(df)
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • ORA-00001: 違反唯一約束條件 (.) 錯誤說明:當在唯一索引所對應的列上鍵入重復值時,會觸發(fā)此異常。 O...
    我想起個好名字閱讀 6,022評論 0 9
  • 關于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 32,317評論 2 89
  • 國家電網(wǎng)公司企業(yè)標準(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 12,530評論 6 13
  • 過往看到“您已成功預約”并不稀奇,可今天這句話成功抓住了我的注意力。為何?原來它是某商業(yè)平臺公眾號的引流標題。當下...
    遇見白娘子她妹閱讀 247評論 0 0
  • 今天在南京,恰逢孩子爹過生日。 把老師的畫稍作修改,畫了一朵小紅花送給他。 接觸禪繞畫不過20天,老師要求的作業(yè)都...
    Rabbit622閱讀 423評論 2 3

友情鏈接更多精彩內(nèi)容