Jag vill konvertera en fil i gff3
-format till gtf2.2
-format.
Anledningen till att jag skulle vilja göra detta är: Jag har en uppsättning transkriptioner som samlats av en massa olika programvaror (och använder RNA-seq-data från olika sekvenseringsteknologier) och jag skulle vilja jämföra var och en av dessa uppsättningar med referenstranskriptomanteckningen för den arten ( D . melanogaster ). Jag bad redan om råd från samhället om hur man ska gå vidare med det, men för att köra den föreslagna programvaran ( TACO och manschett) måste jag ha en GTF-fil som innehåller de experimentella transkriptionerna för att jämföra med referensutskrifterna (GTF).
Hittills försökte jag utan framgång :
- gffread i paketet Manschettknappar (
gffread input.gff3 -T -o output.gtf
): detta resulterar i en tom-utdata. gtf
-fil och en tom-logg
-fil (användsManschettknappar
v.2.2.1) - Jag kontaktade författarna via deras Google-grupp men har inte hört talas om dem ännu -
gff3_to_gtf
verktyget i paketet GenomeTools (gt
) (gt gff3_to_gtf input.gff3 -o output.gtf
): output skapas inte och loggfilen är inte informativ - jag kontaktade författarna via deras e-postlista men har inte hört talas om dem ändå -
GFF3_to_GTF
verktyg i t han FML -paketet (./gff3_to_gtf_converter.pl input.gff3 output.gtf ): utgången innehåller bara en rubrik ( ## gff-version 2.5 kod >) och
-loggen
är tom
gff3
-filen skapades som utdata från GMAP och innehåller transkriptionerna som de hittas genom justering till referensen (specificerar alternativet
[Redigera: vad jag upptäckte en poteriori är att det här formatet inte är en standard gff3, så att konverteringen inte är trivial ...]
Här är början på gff3-fil som jag försökte konvertera:
$ head r9_gmap_match-cdna.gff ## gff-version 3 # Skapad av GMAP-version 2017-04-24 med hjälp av call: / home / aechchik / software / gmap-2017-04-24 / bin / gmap .sse42 -d gmapidx -D / scratch / beegfs / månatlig / aechchik / isoforms / ref / kromosomer / -f gff3_match_cdna -n 0 -t 20 r9_2d.fasta2L gmapidx cDNA_match 18442664 18443024 79 -. ID = ae6a7818-85b5-4739-8031-e58f4462ad41_Basecall_2D_2d.path1; Namn = ae6a7818-85b5-4739-8031-e58f4462ad41_Basecall_2D_2d; Target = ae6a7818-85b5-475-8031 M4 D2 M5 D3 M34 I3 M6 D1 M7 D1 M5 D1 M30 D2 M16 I1 M8 D3 M10 D1 M5 D1 M6 I1 M8 I1 M8 D1 M33 D3 M33 I1 M28 D3 M25 ### 3R gmapidx cDNA_match 15853880 15855465 96 +. ID = dd2444cf-34d6-4cd3-87ab-0ae1f3cb1f96_Basecall_2D_2d.path1; Name = dd2444cf-34d6-4cd3-87ab-0ae1f3cb1f96_Basecall_2D_2d; Target = dd2444cf-34d6-4cd3-87ab-0ae1f3cb1f96_Basecall_2D_2d 80 1645; Gap = M46 D2 M12 D2 M157 D3 M4 D1 M50 I2 M3 I1 M12 I1 M68 I1 M66 I1 M53 D2 M47 D1 M16 D1 M35 D1 M155 D1 M28 D1 M166 D2 M47 D1 M8 D4 M69 D1 M28 D1 M5 D1 M12 D1 M202 I1 M115 D1 M61 I2 M7 D1 M7 I136 cDNA_match 15855529 15855742 97 +. ID = dd2444cf-34d6-4cd3-87ab-0ae1f3cb1f96_Basecall_2D_2d.path1; Name = dd2444cf-34d6-4cd3-87ab-0ae1f3cb1f96_Basecall_2D_2d; Target = dd2444cf-34d6-4cd3-87ab-0ae1f3cb1f96_Basecall_2D_2d 1646 1856; Gap = M21 D1 M68 D1 M85 D1 M37 # ## X gmapidx cDNA_match 14837810 14838142 93 -. ID = 960b50cd-945e-4c12-b9bc-367f965575bb_Basecall_2D_2d.path1; Namn = 960b50cd-945e-4c12-b9bc-367f965575bb_Basecall_2D_2d; Target = 960b50cd-945e-4c12-b9bc-367f965575bb_Basecall_2D_2d 74 406; Gap = M13 D1 M182 I1 M14 I2 M56 I1 M30 D2 M21 D1 M13 X gmapidx cDNA_match 14837470 14837753 92 -. ID = 960b50cd-945e-4c12-b9bc-367f965575bb_Basecall_2D_2d.path1; Namn = 960b50cd-945e-4c12-b9bc-367f965575bb_Basecall_2D_2d; Target = 960b50cd-945e-4c12-b9bc-367f965575bb_Basecall_2D_2d 407 688; Gap = I2 M5 I1 M64 I1 M44 D1 M9 D5 M31 D3 M23 I1 M19 I1 M25 I1 M26 D1 M19 I1 M9 ###