Introducera fel i referensutskrifter enligt extern dataset felmodell

Fråga:

aechchiki

2017-08-22 21:39:43 UTC

view on stackexchange narkive permalink

Jag skulle vilja ändra några referensutskrifter från Ensembl ( D. melanogaster ) för att införa en kontrollerad frekvens av slumpmässiga fel i sekvenserna. Tanken skulle vara att införa slumpmässiga bassubstitutioner i dessa sekvenser, inga indelar för nu, för jag skulle vilja behålla transkriptionssekvenslängden som den är i referensen.

Felhastigheten per transkript kommer att bestämmas enligt en felprofil beräknad från en extern uppsättning RNA-seq-läsningar (t.ex. genereras med ONT MinION)

Syftet med detta modifiering skulle vara att skapa ett grovt riktmärke för prestanda hos aligners att använda över transkript från skarvläsningar (rna-till-genom), aka med mer än ett exon. för detta ändamål?

Fyra svar:

gringer

2017-08-23 00:43:37 UTC

view on stackexchange narkive permalink

Hjälper något av svaren för den här frågan? Karel Brinda har nämnt några lässimulatorer i svaret på den frågan och har en avhandling med mer information.

Uteslutande av INDEL-fel gör inte låter som en bra idé; längden kan fortfarande bevaras även om det görs, det behöver bara justeras i slutet av sekvensen. Observera att om du försöker modellera nanopore-läsningar, är det du verkligen modellerar basuppringaren snarare än sequencer. Jag nämner detta mer detaljerat i mitt svar.

I de flesta fall där fel modelleras, tycker jag att det är bättre att använda offentligt tillgängliga data istället. Speciellt för nanoporedata finns det omodellerade systematiska fel i basuppringarna och sequencer som inte kan simuleras med några program (eftersom de är omodellerade). Följande papper skulle vara ett bra ställe att börja för cDNA-sekvenser, som tittar på encelliga data från mus (C57Bl / 6) B1a-celler:

http://www.biorxiv.org / content / early / 2017/04/13/126847

Illumina och ONT läser för den studien finns i SRA under anslutningsnummer SRP082530.

Jag känner inte till någon ny D. melanogaster studier som har gjorts med nanopore. Det finns alltid möjlighet att spendera $ 1000 på ett köp av en MinION med ett RNA-startpaket för att göra studien själv. Här är en äldre riktad genstudie, men kom ihåg att den använde en R7.3-flödescell, så felfrekvensen kommer att vara mycket högre än vad som för närvarande är tillgängligt:

https: // genomebiologi .biomedcentral.com / artiklar / 10.1186 / s13059-015-0777-z

user172818

2017-08-25 16:42:25 UTC

view on stackexchange narkive permalink

Denna förtryck använder pbsim för att simulera ONT RNA-sekvenser för fruktfluga. Det är förmodligen värt att läsa om du vill göra samma sak.

Du bör inkludera INDEL-fel. Det är det som gör RNA-seq-anpassning utmanande. För jämförelseändamålet ökar inte komplexiteten alls genom att lägga till INDEL. Du kan analysera skarvkorsningar på referensen från CIGAR och jämföra dem med anteckningen. Du behöver inte oroa dig för basnivåjusteringen.

Dessutom finns offentliga riktiga ONT-data (AC: SRP082530) för SIRV spike-in kontroll och mus B-celler. Du behöver egentligen inte simulera.

PS: märkte bara att du är författare till den första förtrycket jag citerade. Jag skulle använda riktiga data för utvärdering.

Devon Ryan

2017-08-22 22:39:20 UTC

view on stackexchange narkive permalink

Det låter som det du verkligen letar efter är en lässimulator. En kortfattad sökning visar NanoSim, som är utformad för att simulera läsningar från en MinION. Detta har fördelen att åtminstone har använts i en del av den publicerade litteraturen, vilket alltid är ett trevligt tecken.

Du kan också hitta den här recensionsartikeln om lästa simulatorer användbara. Det nämns inte specifikt NanoSim, men det bör visa sig vara en användbar genomgång av de allmänna begreppen ändå om du behöver läsa upp dem.

Hum, egentligen inte vad jag letar efter eftersom `simuleringsverktyget använder modellen byggd i föregående steg för att producera i silico läser för ett givet referensgenom '- och det jag behöver är att först beräkna felfrekvensen från det experimentella läser (kan göras vid analysering av en inriktningsfil i sam), och för det andra, ersätt i referensen så många nukleotider som behövs för att nå den genomsnittliga felfrekvensen för riktiga ONT-läsningar. för NanoSim har jag intrycket att de genererar helt denovo "läser" från genomet direkt.

@AminaEchchiki Om du inte vill använda en av deras förutbildade modeller kan du låta den träna på riktiga data och sedan läser den ut med rätt felprofil. Naturligtvis, eftersom det använder SISTA kommer allt som är mest lika att ha de bästa resultaten i dina riktmärken.

aechchiki

2017-08-24 18:36:56 UTC

view on stackexchange narkive permalink

Den körbara fastq-sim i DNemulator -paketet kan ändra en uppsättning ingångssekvenser i fasta -format enligt en extern uppsättning kvalitetspoäng rapporterade i en fastq -fil.

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.

about - legalese