Fråga:
Lösningar för hantering av data i ett litet bioinformatik / 'omics lab?
agapow
2017-07-21 17:33:07 UTC
view on stackexchange narkive permalink

Ett annat slags problem: även ett litet omics-laboratorium genererar mycket data, rå, mellanliggande och bearbetad. Vilka (mjukvarulösningar) finns för hantering av dessa data, så att "gamla" data kan hämtas och kontrolleras eller analyseras om, även efter att människor har lämnat labbet? Viktiga punkter skulle vara:

  • enkel installation
  • enkel att sätta in data på ett korrekt märkt / märkt sätt (det är inte bra om förvaret bara är ett centraliserat dåligt mess)
  • användbar sökning och utforskning
  • säkerhet (dvs. begränsad till medlemmar i labbet)
  • förhandsgranskningar / sammanfattningar av data
  • kan rymma vilken datauppsättning som helst
  • lokalt, inte SaaS

Det verkar från mina undersökningar av ämnet att det finns väldigt lite mellan de primitiva (t.ex. handrullade Access-databaser) och stora lösningar. Saker jag har tittat på inkluderar:

  • Dataverse: mycket populärt, installation verkar komplicerad och oklar om uppladdning är så lätt
  • DSpace: mest för publikationer och dokument
  • CKAN
  • OSF: använde detta ett tag, integreras med många tjänster men uppladdning av data verkade besvärligt
Två svar:
Ian Sudbery
2017-07-25 16:43:31 UTC
view on stackexchange narkive permalink

Jag känner inte till några förbyggda produkter, men jag kan beskriva hur vi lyckades detta i mitt postdoc-laboratorium och hur jag planerar att hantera det i min nystartade grupp.

Regel 1: Allt arbete sker i projektets projektkatalog i den centrala arkivet, inte på din stationära eller bärbara dator.

Regel 2: Tungt beräkningsarbete utförs av gruppens standardanalys rörledningar. Tolkning görs i jupyter-anteckningsböcker eller Rmarkdown.

Ett projekt har en katalog i gruppens arkiv. Den katalogen har en fast struktur:

  proj001 ---- raw_data * | --external_datasets | --src * | --anteckningsböcker * | --pipeline1 | --pipeline2 | - etc * länk till ett separat, säkerhetskopierat filsystem.  

Rörledningar är där tunga analyser sker och alla använder samma standardrörledningar och producerar samma standardutdatafiler och databasstruktur.

Så vanliga pipelines kan vara mappningsrörledningen, readqc-pipelinen, differentialuttrycksrörledningen, exome-pipelinen, chip-seq-pipelinen osv ...

Rörledningar har tre viktiga utgångar : en automatiskt genererad HTML-rapport, en SQLite-databas och filer i exportkatalogen.

När vi arkiverar ett projekt sparar vi detta tillsammans med pipelines konfigurationsfil och loggfil.

Så om jag vet att Jane Bloggs gjorde en RNAseq för 5 år sedan på en celltyp som jag är intresserad av, om jag vet att det var projekt 5, vet jag att i projekt 5-katalogen kommer det att finnas en diff_expression_pipeline -katalog och att den kommer att innehålla en sqlite-databas som heter csvdb och att den kommer att ha en tabell som heter refcoding_deseq_gene_diff och den tabellen följer en känt format. Det kommer att vara stora kvinnor i katalogen export . Eller så kommer BAM: erna i katalogen mapping_pipeline .

Naturligtvis kvarstår problemet med att veta att Jane Bloggs gjorde detta RNAseq och vad projektet hette. Vi använder en Wiki för detta, men det är inte perfekt.

G_Hannigan
2017-07-26 03:01:41 UTC
view on stackexchange narkive permalink

Vi har organiserat data "per projekt" med hjälp av ett GitHub-arkiv för varje projekt. Varje projekt blir till slut ett papper (skrivet i R Markdown), så du kan ha flera "projekt" baserat på samma datamängder. Se detta som ett exempel:

https://github.com/SchlossLab/new_project

Analyserna hanteras alla med en Makefile som går från laddning sekvensdata från SRA, att utföra analyser, att göra det slutliga manuskriptet. På det sättet är det alltid tydligt hur saker gjordes. Här är ett exempel på hur det kan se ut:

https://github.com/SchlossLab/new_project/blob/master/Makefile

As När det gäller att organisera rådata och vad som helst har jag precis använt en enkel MySQL-databas som är värd på MAMP (Mac-version, Linux är LAMP, Windows är WAMP). Den har ett GUI och allt, och är ganska lätt att använda. Här är en resurs för att komma igång med det:

http://microbiology.github.io/PDFs/MySQL-Intro-Workshop-Hannigan.pdf

Allt det här är gratis att använda, vilket är fantastiskt! Hoppas det här hjälper! :)



Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...