生信小技巧:如何管理你的文件目錄與記錄分析流程(4)

現(xiàn)在很多文章都是關(guān)于如何使用生信不同的工具,進行數(shù)據(jù)分析。但是,學(xué)會如何正確管理好你分析中產(chǎn)生的文件,并且記錄好實驗的代碼步驟,也是一件重要的技能。大家別小看這個能力,這是作為一個生信工作者在找工作時最基本的一個要求,也會為你職業(yè)生涯帶來很多好處,例如適當(dāng)整理后你會有很多屬于你自己的pipeline。

試想一下,如果你有很多數(shù)據(jù),在不斷的分析過程中你可能會產(chǎn)生很多很多文件,然后有一天你在運行這個項目6個月后,你或者你的老板想重復(fù)你第一個月所做的分析,又或者當(dāng)你投稿發(fā)文章時,某些雜志的編輯需要你提供詳盡的分析過程。


在這樣情況下,如果你沒有很好的記錄下,你當(dāng)時運行文件的每一步,這將會是一個災(zāi)難性的時刻,因為你要花很多時間去思考你當(dāng)時做了什么,還可能要逐一查看每一個生成的文件,進而推斷出當(dāng)時運行的代碼。這是一個很多生信新手都會遇到的問題,因此如何正確的將他們歸類管理,并適當(dāng)記錄當(dāng)時的流程步驟,就變得非常的重要了。

管理文件的基本原則

管理我們數(shù)據(jù)文件有兩個最重要的原則。

  1. 要做到一個不了解你項目的人,可以輕松的通過你的文件夾,了解你所做了什么,為什么要這樣做。(通過你的命名,還有文件夾的結(jié)構(gòu),明白你的思路,找到對應(yīng)的文件)
  2. 你現(xiàn)在做的每一個分析步驟,你將來都有可能會重復(fù)再做一次。我們可以通過管理文件和記錄達成這兩條原則。

文件夾的管理結(jié)構(gòu)

下面以“A Quick Guide to Organizing Computational Biology Projects” 這篇文章所提到的結(jié)構(gòu)給大家做一個簡單的事例:

此處輸入圖片的描述
此處輸入圖片的描述

在一個項目中,我們可以將所需的文件分成五大塊。第一數(shù)據(jù)(data),儲存你所用的所有的raw data數(shù)據(jù)。第二結(jié)果(results),存儲每一步你所做所做的分析得到的結(jié)果文件。第三編寫的代碼(src),存儲你分析過程中用到的代碼或者你所編寫的代碼。第四工具(tool),存儲一些這個項目特定使用到的工具,一般是第三方已經(jīng)編寫好的,你下載下來的工具。個人習(xí)慣是,對于普遍使用到的工具,可以放在home/biosoft的文件夾里,方便在不同project中全局調(diào)用。第五,文件(doc),存放你發(fā)表paper所用到的圖和表。

文獻中作者,提議我們可以使用按時間順序來命名下層文件夾來管理我們所生成的文件。個人覺得可以在此基礎(chǔ)上再添加一些具體的分析信息,例如2009-01-23_Mapping。 這樣一分類,整體的結(jié)構(gòu)還有思路就很清晰了,極大的增加了該項目的"可讀”性還有重復(fù)性。

代碼/實驗流程步驟記錄

現(xiàn)在有很多記錄的軟件可以用來記錄我們分析所用到的代碼和參數(shù),這里推薦使用Jupyter notebooks。http://jupyter.org

推薦的原因,不但可以記錄日常的所用的代碼,還可以分享你所得到的分析結(jié)果。另外Jupyter notebooks,還有內(nèi)置的RStudio or IPython, 你可以一邊寫代碼,一邊檢驗修改他。前一段時間生信菜鳥團的其他小編還推薦了一個網(wǎng)上云端版的Jupyer notebooks,更加方便了我們使用該軟件(特別對一些不會安裝Jupyer notebooks,并聯(lián)系本地的python和R的同學(xué)來說是個福音)。

總結(jié)

在濕實驗室中,我們有時候很難百分百完全再重復(fù)你所做的實驗。但是,在生物信息的分析中,只要我們掌握好記錄和管理文件的技巧,重復(fù)一個數(shù)據(jù)分析的流程是再簡單不過了。

參考文章:

Noble, W. S. (2009). A quick guide to organizing computational biology projects. PLoS computational biology, 5(7), e1000424.


這只是我個人的一些理解,如果你在管理文件或者記錄實驗步驟流程很有自己的心得,歡迎在后臺回復(fù)中留言,分享你獨特的見解。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容