Provtagning av haplotyper

Fråga:

Provtagning av haplotyper

Kozolovska

2018-08-08 15:01:07 UTC

view on stackexchange narkive permalink

Jag försöker simulera olika arvsmassor, jag har data (VCF-filer) av olika gener från 1000K-genprojektet.

Jag vill simulera olika hela genom, det vill säga generera en ny population genom att kombinera riktiga haplotyper jag har. Jag undrar vad som är det bästa sättet att ta itu med problemet. Det är vad som är en effektiv metod för att skapa realistiska (inte bara slumpmässigt utvalda delar och kombinera dem) nya genotyper baserat på de riktiga genotyper jag redan har.

Jag använder Bioconductor-paket VariantAnnotation för att läsa och manipulera VCF-filerna och TxDb.Hsapiens.UCSC.hg19.knownGene för att bestämma genernas positioner.

Data ser ut som följande:

  > gene58 @ rowRangesGRanges objekt med 91 intervall och 1 metadatakolumn: seqnames ranges strand | paramRangeID <Rle> <IRanges> <Rle> | <factor> rs551585351 1 229566998 * | <NA> rs528384854 1 229567027 * | <NA> rs542093083 1 229567063 * | <NA> rs561849701 1 229567128 * | <NA> rs531042647 1 229567160 * | <NA> ... ... ... .... ... rs565479298 1 229569784 * | <NA> rs572772527 1 229569785 * | <NA> rs605430 1 229569803 * | <NA> rs605428 1 229569804 * | <NA> rs368699658 1 229569810 * | <NA> ------- seqinfo: 86 sekvenser från "hg19" genom

Genotypmatrisen för genen:

  > gene.mat [ 1: 5, 1: 5] HG00867 HG02371 HG00759 HG00766 HG00844
rs551585351 "0 | 0" "0 | 0" "0 | 0" "0 | 0" "0 | 0" rs528384854 "0 | 0" "0 | 0" "0 | 0" "0 | 0" "0 | 0 "rs542093083" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "rs561849701" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "rs531042647" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "

Tre svar:

winni2k

2018-11-28 01:28:02 UTC

view on stackexchange narkive permalink

Data i din matris verkar vara från en VCF-fil (För referens, se https://github.com/samtools/hts-specs/blob/master/VCFv4.3.pdf ).

I VCF-specifikationen kan en heterozygot genotyp specificeras som 0 | 1 . Nollpunkten och en anger allelnumren (0 = ref, 1 = första alt) som utgör genotypen. "Röret" ( | ) används för att indikera att allelerna är i fas med föregående post i filen. Om du observerar data så här:

  "0 | 1" "0 | 0" "0 | 1" "1 | 1" "0 | 1" "1 | 1"

Då betyder det att det första provet har haplotyperna [0,0,0] och [1,1,1]; och att det andra provet har haplotyperna [0,1,1] och [0,1,1].

Tack, men det är inte vad jag menade, jag ville veta hur man kan kombinera haplotyperna för att generera ny befolkning ur den. Finns det en plats där rekombination är mer sannolikt? Finns det ett program där jag kan mata in riktiga haplotyper och det kommer att generera en befolkning?

åh! Det finns verkligen program för det. Någon chans att du kan omformulera ditt inlägg för att innehålla den frågan?

Hoppas att det är bättre, låt mig veta om jag lämnade något oklart.

winni2k

2018-12-06 23:28:37 UTC

view on stackexchange narkive permalink

För enkel haplotypsimulering av orelaterade individer finns Montanas vördnadsfulla HapSim. Modellen som används i det verktyget är enkel och kan vara tillräckligt bra för dina ändamål. Du måste skaffa en karta över rekombinationshastighet från till exempel HapMap-konsortiet eller från 1000G. En kortvarig google-sökning avslöjade också detta verktyg och genomgång som kan passa ditt problem: https://adimitromanolakis.github.io/sim1000G/inst/doc/SimulatingFamilyData.html

Det finns många andra verktyg med mer avancerade modeller, men det låter som om de skulle vara överdrivna här.

Emily_Ensembl

2018-08-13 12:29:44 UTC

view on stackexchange narkive permalink

Ensembl har haplotyper från 1000 genomer tillgängliga med transkript.

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 4.0-licensen som det distribueras under.

about - legalese

Loading...