convert bed to gtf
1.使用conda安裝bedtogenepred和genepredtogtf包
conda install -c bioconda ucsc-bedtogenepred
conda install -c bioconda ucsc-genepredtogtf
2. 使用bedToGenePred將bed轉(zhuǎn)換為GenePred格式
bedToGenePred input.bed input.GenePred
3. 使用genepredtogtf將GenePred轉(zhuǎn)換為gtf格式
genePredToGtf file input.GenePred?input.gtf
附:
(1)bed文件格式
BED (Browser Extensible Data)?文件包括3個(gè)必須列(chrom,chromStart,chromEnd)三列和9個(gè)可選列,并且這些列的順序是固定的。bed文件一般以‘.bed’作為文件擴(kuò)展名,以“\t”作為列分隔符。
3個(gè)必需列:
chrom:染色體的名稱(例如chr3,chrY,chr2_random),其中的chr一般要求是小寫。
chromStart:染色體中特征的起始位置。染色體中的第一個(gè)堿基編號為0。(注:由于基因注釋文件格式中采用的是從1開始計(jì)算)
chromEnd:染色體中特征的結(jié)束位置。所述 chromEnd堿基并不包含在特性中。例如,染色體的前100個(gè)堿基定義為chromStart = 0,chromEnd = 100,并跨越編號為0-99的堿基。
9個(gè)可選列:
name:BED行的名稱。
score:設(shè)定值在0到1000之間,可以用于表示基因的豐度,富集程度等,在genome browser中會以對于的灰度顯示。
strand:基因的鏈方向,可以設(shè)定為無鏈方向“.” 或正方向“+”或負(fù)方向“ - ”。
thickStart:繪制自定義的起始位置(例如,基因顯示中的起始密碼子)。
thickEnd:繪制自定義的結(jié)束位置(例如基因顯示中的終止密碼子)。
itemRgb:R,G,B形式的RGB值(例如255,0,0)。
blockCount:BED行中的塊(例如外顯子)數(shù)。
blockSizes:塊大小的逗號分隔列表。此列表中的項(xiàng)目數(shù)應(yīng)與blockCount相對應(yīng)。
blockStarts:以逗號分隔的塊開始列表。應(yīng)該相對于chromStart計(jì)算所有 blockStart位置。此列表中的項(xiàng)目數(shù)應(yīng)與blockCount相對應(yīng)。
例如:

(2)gtf文件格式
GTF全稱為gene transfer format,主要是用來對基因進(jìn)行注釋。GTF文件包括9列。gtf文件一般以‘.gtf’作為文件擴(kuò)展名,以“\t”作為列分隔符。
1)seqid:序列的編號,一般為chr或者scanfold編號。
2)source: 注釋的來源,一般為數(shù)據(jù)庫或者注釋的機(jī)構(gòu),如果未知,則用點(diǎn)“.”代替。
3)feature:注釋信息的類型,比如Gene、cDNA、mRNA、CDS,5UTR,start_codon等
4)start:該基因或轉(zhuǎn)錄本在參考序列上的起始位置;
5)end:該基因或轉(zhuǎn)錄本在參考序列上的終止位置;
6)score:得分,數(shù)字,是注釋信息可能性的說明,可以是序列相似性比對時(shí)的E-values值或者基因預(yù)測是的P-values值,“.”表示為空;
7)strand:該基因或轉(zhuǎn)錄本位于參考序列的正鏈(+)或負(fù)鏈(-)上;
8)phase:僅對注釋類型為“CDS”有效,表示起始編碼的位置,有效值為0、1、2(對于編碼蛋白質(zhì)的CDS來說,本列指定下一個(gè)密碼子開始的位置。每3個(gè)核苷酸翻譯一個(gè)氨基酸,從0開始,CDS的起始位置,除以3,余數(shù)就是這個(gè)值,,表示到達(dá)下一個(gè)密碼子需要跳過的堿基個(gè)數(shù)。該編碼區(qū)第一個(gè)密碼子的位置,取值0,1,2。0表示該編碼框的第一個(gè)密碼子第一個(gè)堿基位于其5'末端;1表示該編碼框的第一個(gè)密碼子的第一個(gè)堿基位于該編碼區(qū)外;2表示該編碼框的第一個(gè)密碼子的第一、二個(gè)堿基位于該編碼區(qū)外;如果Feature為CDS時(shí),必須指明具體值。)
9)attributes:一個(gè)包含眾多屬性的列表,格式為“標(biāo)簽=值”(tag=value),標(biāo)簽與值之間以空格分開,且每個(gè)特征之后都要有分號;(包括最后一個(gè)特征),其內(nèi)容必須包括gene_id和transcript_id。以多個(gè)鍵值對組成的注釋信息描述,鍵與值之間用“=”,不同的鍵值用“。
Ref
http://onetipperday.sterding.com/2012/08/convert-bed-to-gtf.html
http://genome.ucsc.edu/FAQ/FAQformat.html#format1