Jag har två GFF3-filer:
- Funktioner som använder transkript-ID: n som landmärken. dvs. "CDS" -funktionstyper med koordinater från transkriptionsutrymme.
- Funktioner som använder kromosom-ID som landmärken. dvs "exon" -funktionstyper som använder koordinater från kromosomutrymme.
Jag vill förvandla koordinaterna för funktionerna i fil 1 till koordinatutrymmet för fil 2. dvs. transkriptionsbaserade koordinater till genombaserade coodinates.
Här är ett exempel för fil1:
cat transcript_orfs.gff3 ## gff-version 3 ## sekvensregion Tx.1 1 4000Tx. 1 ORF_finder-gen 1 4000. +. ID = 1Tx.1 ORF_finder mRNA 1 4000. +. ID = 2; Förälder = 1Tx.1 ORF_finder exon 1501 2500. + 0 ID = 3; Förälder = 2Tx.1 ORF_finder CDS 1501 2500. + 0 ID = 4; Förälder = 2gt skiss -addintrons transcript_orfs.png transcript_orfs.gff3
Här är ett exempel för fil1:
kattgenom.gff3 ## gff-version 3 ## sekvensregion chr3A_part1 1 454103970chr3A_part1 genomet-sammansättningsgen 1001 6000. +. ID = Txchr3A_part1 genommontering mRNA 1001 6000. +. ID = Tx.1; Förälder = Txchr3A_part1 genom_montering exon 1001 3000. +. ID = Tx.1.exon1; Förälder = Tx.1chr3A_part1 genom_montering five_prime_UTR 1001 2000. +. ID = Tx.1.utr5; Förälder = Tx.1chr3A_part1 genommontering CDS 2001 3000. + 0 ID = Tx.1.cds1; Förälder = Tx.1chr3A_part1 genommontering exon 4001 6000. +. ID = Tx.1.exon2; Förälder = Tx.1chr3A_part1 genommontering CDS 4001 5000. + 2 ID = Tx.1.cds2; Förälder = Tx.1chr3A_part1 genom_montering three_prime_UTR 5001 6000. +. ID = Tx.1.utr3; Förälder = Tx.1gt skiss -addintroner genom.png genom.gff3
Jag vill konvertera koordinaterna för funktionerna från file1 till kromosomgenomiska koordinater. Jag förväntar mig att få ungefär följande utdata:
cat output.gff3
## gff-version 3 ## sekvensregion chr3A_part1 1 454103970chr3A_part1 ORF_finder gen 1001 6000. +. ID = 1chr3A_part1 ORF_finder mRNA 1001 6000. +. ID = 2; Förälder = 1chr3A_part1 ORF_finder exon 2501 3000. + 0 ID = 3.1; Förälder = 2chr3A_part1 ORF_finder CDS 2501 3000. + 0 ID = 4.1; Förälder = 2chr3A_part1 ORF_finder exon 4001 4500. + 0 ID = 3.2; Förälder = 2chr3A_part1 ORF_finder CDS 4001 4500. + 1 ID = 4.2; Förälder = 2gt skiss -addintrons output.png output.gff3
Jag har tittat på med mapFromTranscripts ()
från Bioconductors GenomicRanges
-bibliotek men jag har gjort små framsteg när jag försöker dechiffrera manualen.