Fråga:
Vad är den bästa metoden för att uppskatta ett fylogenetiskt träd från en stor dataset med> 1000 loci och> 100 arter
roblanf
2017-06-10 08:57:27 UTC
view on stackexchange narkive permalink

Jag har en stor fylogenomisk inriktning på> 1000 loci (varje locus är ~ 1000bp) och> 100 arter. Jag saknar relativt lite data (<10%).

Jag vill uppskatta ett fylogenetiskt träd med högsta sannolikhet utifrån dessa data, med mått på statistiskt stöd för varje nod.

Det finns många fylogenetikprogram som påstår sig kunna analysera datamängder så här (t.ex. RAxML, ExaML, IQtree, FastTree, PhyML ?, etc). Med tanke på att jag har tillgång till en stor server (512 GB RAM, 56 kärnor), vad är för- och nackdelarna med varje program. Vilket kommer sannolikt att ge mig den mest exakta uppskattningen av ML-trädet för en dataset av denna storlek?

Du vill att vi ska granska alla fylogenetiska program eller bara de du listade: RAxML, ExaML, IQtree, FastTree, PhyML (Vilket jag fortfarande tycker är ganska brett). Hur mäter du ML-trädets noggrannhet?
Jag är intresserad av alla åsikter, bevis och länkar till jämförelser mellan programvara som kan uppskatta ML-träd från stora datamängder som denna. Det skulle finnas många sätt att mäta noggrannhet, inklusive: (i) bevis från simulering; (ii) jämförelser av sannolikhetspoäng för uppskattade träd i en gemensam ram.
RAxML är goto-programmet. Problemet med FastTree är att dess noggrannhet är begränsad till de datamängder som används, dvs dina kan vara en outlier.
Ett svar:
Leo Martins
2017-06-10 16:58:11 UTC
view on stackexchange narkive permalink

Detta papper hävdar att FastTree är nästan lika exakt som RAxML, samtidigt som det är mycket snabbare. Du måste dock bara vara försiktig med att stödvärdena som matas ut av FastTree inte är bootstrap-värden, de är baserade på Shimodaira-Hasegawa-testet. ( se även den här kommentaren för det fall du har mycket kort grenlängd). [ uppdatering: Enligt har det senaste jämförelsepapperet som nämns nedan FastTree fungerat ganska dåligt jämfört med RAxML eller IQ-träd.]

Från vad Jag förstår, du bör bara använda ExaML om dina data är för stora för att hanteras av RAxML i en enda nod. ExaML ska fungera som RAxML men med en viss parallelliseringskostnad. För alla effekter behandlar jag dem som samma. Jag känner inte till relevanta fördelar med phyML jämfört med RAxML (för mig är det lättare att använda men jag är väldigt van vid phyML).

Jag känner inte till IQ-trädet, men det är författare hävdar att även med samma tid som RAxML eller phyML, hittar IQ-tree redan bättre sannolikheter oftare än inte (även om det som standard tar lite längre tid att konvergera). En ny jämförelse mellan alla dessa program gynnade IQ-TREE för både en-gen- och sammankopplingsanalyser (med RAxML mycket nära). Det kan också uppskatta grenstöd endast genom ett SH-liknande test, men jag är inte säker. [ uppdatering: IQ-tree erbjuder tre mått på support, standard bootstrap, aLRT och ultrasnabb bootstrap. Se OP: s kommentar nedan för mer information.]

Eftersom du har få data saknas kanske du också vill prova en slutsats av enstaka locus följt av kluster av genträd (med treescape eller treeCL) för att se hur spridning dina data är, eller för att se effekten av borttagning av outliers, eller för att använda idéer som liknar statistisk binning.

I den senaste jämförelsen du nämner noterar jag att RAxML bara presterade bättre än IQtree när de gjorde 10 oberoende sökningar per replik. Så man kanske bara gynnar IQtree här och noterar att det är förnuftigt att göra en massa oberoende sökningar. FastTree presterade också mycket dåligt i alla jämförelser av den ms.
Mått för stöd i IQtree: (i) standard bootstrap; (ii) aLRT (ungefärligt sannolikhetsförhållande test, vilket är ungefär som att fråga om en given grenlängd är betydligt> 0); (iii) Ultrafast bootstrap (inte samma tolkning som en standard bootstrap, mer som en bakre sannolikhet om jag har förstått det rätt).
Observera att sannolikhetsjämförelser mellan programresultat också beror på valet av modell och datadelning. Jag har inte tittat på detaljerna, men vissa program kan implementera modeller som inte finns i andra. Detta kan vara ett kriterium för valet.
Tack för kommentarerna @roblanf, Jag tog mig friheten att uppdatera mitt svar med denna information.
notera också att det finns en nyligen släppt omskrivning av RAxML tillgänglig [här] (https://github.com/amkozlov/raxml-ng). Den kombinerar de bästa delarna av RAxML och ExaML, samtidigt som den är snabbare i allmänhet. Men inte alla nuvarande RAxML-funktioner har implementerats än.


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...