Fråga:
Hur gör man en skillnad mellan den "klassiska" de Bruijn-grafen och den som beskrivs i NGS-tidningar?
Leo Martins
2017-05-19 15:32:45 UTC
view on stackexchange narkive permalink

Inom datavetenskap har en De Bruijn-graf (1) m ^ n vertikaler som representerar alla möjliga sekvenser av längd n över m symboler och (2) riktade kanter som förbinder noder som skiljer sig åt genom en förskjutning av n-1 -element (efterföljaren har det nya elementet till höger).

Men i bioinformatik medan tillstånd (2) bevaras verkar det som kallas De Bruijn-graf inte respektera tillstånd (1). I vissa fall ser grafen inte alls ut som ett de Bruijn-diagram (t.ex. http://genome.cshlp.org/content/18/5/821.full).

Så min fråga är, om jag vill göra det tydligt att jag använder bioinformatikens tolkning av en de Bruijn-graf, finns det en term för det? Något som "förenklad de Bruijn-graf", "projektion av en de Bruijn-graf" eller "graf för närliggande k-mers"? Finns det några papper som gör denna skillnad, eller gjorde jag allt fel?

I grund och botten betyder villkoret 1 att även kantfria hörn bör finnas i diagrammet, eller hur?
Jag menar, jag undrar om någon icke-bioinformatisk implementering av De Bruijn-grafen faktiskt lagrar dem, eftersom de inte innehåller någon användbar information.
Det finns ytterligare en skillnad i De Bruijn-grafer som används för genommontering - kanterna är viktade.
Hej @Slim re. F1, jag tror att de Bruijn-grafer är anslutna (en komponent). Du kan bygga dem bara genom att tillhandahålla `m` och` n` (http://mathworld.wolfram.com/deBruijnGraph.html). F2: ja, implementeringar behöver inte alla noder; de Bruijn-grafen är en abstrakt enhet, en kombinatorisk struktur, som en "komplett graf". Men om min väldigt viktiga graf saknar några kanter (b / c värdelös) kan jag inte kalla det "komplett". Det gör det inte mindre viktigt BTW! F3: det är sant! Tack för att du redigerade frågan.
Tre svar:
Leo Martins
2017-05-23 01:33:56 UTC
view on stackexchange narkive permalink

Flera artiklar har gjort denna skillnad, och några använder verkligen olika termer för att skilja mellan dem. Till exempel Kazaux et al. (2016) erkänner att:

Dessa begränsningar gynnar användningen av en version av de Bruijn Graph (dBG) dedikerad till genommontering - en version som skiljer sig från den kombinerade struktur som uppfanns av NG de Bruijn.

Kingsford et al. (2010) erkänner också skillnaden:

Observera att denna definition av en de Bruijn-graf skiljer sig från den traditionella definitionen som beskrivs i matematisk litteratur på 1940-talet och som kräver att grafen innehåller alla längd-k-strängar som kan bildas från ett alfabet (snarare än bara de strängar som finns i genomet).

Den äldsta referensen jag hittade för en specifik term för att hänvisa till den monteringsrelaterade strukturen är Skiena och Sundaram (1995), där de kallar det en subgraf av de Bruijn-graven . Senare, 2002, kommer Błażewicz et al. att hänvisa till det som en de Bruijn-inducerad subgraf . Termen de Bruijn subgraph definieras också formellt i Quitzaus avhandling (2009). Där, och även i artikeln ( Quitzau och Stoye, 2008), beskriver författarna sekvensdiagrammet som en modifiering av den glesa de Bruijn-undergrafen (vanligtvis används vid monteringsproblem) , där icke-förgrenande banor ersätts av ett enda toppunkt. Termen gles de Bruijn-diagram används också av Chauve et al. (2013).

En annan term som jag hittade var ordgraf , som beskrivs av både Malde et al. (2005) och av Heath och Pati (2007) som en underbild eller som en generalisering av en de Bruijn-graf. Rødland (2013) sammanfattar några av de termer som används för denna datastruktur:

Datastrukturen förstås bäst i termer av de Bruijn-underbilden av S [k]. (...) Vissa författare kan hänvisa till detta som ett orddiagram eller till och med bara en de Bruijn-graf.

Även om vi kan inse att skillnaden inte är särskilt relevant, är frågan frågar specifikt om situationen där man vill göra en sådan skillnad.

Som många papper och jag själv sa är montering av de Bruijn-grafen bara en undergraf av hela de Bruijn-grafen. Den som säger annorlunda kan inte erkänna detta enkla förhållande. "Sekvensdiagram" är för allmänt och används i annat sammanhang (t.ex. sekvensmonteringsdiagram). "Sparse de Bruijn-grafen" är mer lämplig för en graf konstruerad genom att hoppa över några k-mers i läsningar (t.ex. i gles samlare). Directed acyclic word graph (DAWG) är ett redan existerande koncept, åtminstone daterat till 80-talet, vilket också gör "ordgraf" tvetydig. Människor bör sluta uppfinna nya namn för en subgraf.
Pevzner gjorde banbrytande arbete med att använda de Bruijn-grafer vid montering (http://www.pnas.org/content/98/17/9748.full) och alternativ skarvning (https://www.ncbi.nlm.nih.gov/ pubmed / 12169546)
holmrenser
2017-05-19 16:07:00 UTC
view on stackexchange narkive permalink

Förutom den vanliga De Bruijn-grafen som visas på wikipedia, har vissa implementeringar inom bioinformatik ytterligare bearbetning. Jag antar att den främsta anledningen till att figur 1 i tidningen du länkade (om sammet av sammet i sammet) är något annorlunda är att en nod representerar en serie överlappande k-mers . För att visualisera detta som en mer klassisk De Bruin-graf måste du ansluta k-mersna som visas ovan noderna. Bildtexten bredvid figur 1 beskriver behandlingen ganska tydligt.

Enligt din sista fråga: Jag tror inte att det finns en 'bioinformatisk tolkning av en De Bruijn-graf'. Det finns olika implementeringar, som alla har det specifika. Således skulle det vara bäst att hänvisa till den faktiska implementeringen.

Som ett exempel: detta är ett trevligt dokument om hur man konstruerar ett pan-genom De Bruijn-diagram över flera genom samtidigt .

Men en "implementering" av en de Bruijn-graf som inte inkluderar alla k-mers är inte längre en de Bruijn-graf (i ursprunglig mening), eller hur? Om implementeringen inte uppfyller villkoret (1) ovan undrar jag om det finns ett annat namn (eller en kvalificering) som används.
Jag är helt säker på att alla original-k-mers finns i någon form.
user172818
2017-05-19 19:14:34 UTC
view on stackexchange narkive permalink

Låt oss först anta att DNA bara har en tråd. En graf för församling av de Bruijn är en subgraf av en komplett graf för de Bruijn. Den innehåller ett toppunkt u om u är en k-mer i läser; den innehåller en kant u-> v, om u och v är intilliggande k-mers vid en läsning. Alternativt noterar vi att en kant u-> v representeras av en (k + 1) -mer. En församling av de Bruijn-grafen kan betraktas som en subgrafkant framkallad från alla (k + 1) -mer i läsningar - i själva verket tar vissa montörer listan över (k + 1) -mer som en kortfattad representation av de Bruijn-grafer. / p>

DNA har två strängar. Vi behöver bara framkalla en församling av de Bruijn-grafen från alla (k + 1) -mer och deras omvända komplement. Det är fortfarande en underbild av ett komplett de Bruijn-diagram.

Eftersom en församling av de Bruijn-grafen bara är en subgraf. Det är inte nödvändigt att ge det ett nytt namn.

PS: Jag raderade mitt gamla svar eftersom det inte var vad du ber om baserat på dina kommentarer. Jag var förvirrad av att du nämnde sammet. Velvet använder en likvärdig men ovanlig representation av de Bruijn-grafer, vilket komplicerar din fråga.



Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...