Fråga:
Vilka är de tillgängliga molntjänsterna för bioinformatik?
Peter
2017-06-12 16:51:35 UTC
view on stackexchange narkive permalink

Jag letar efter molntjänster som kan användas för att göra bioinformatik. Ett exempel jag hittade är InsideDNA och det finns naturligtvis Amazon. En liten beskrivning av dessa skulle uppskattas.

Kan du också nämna Google Compute och ytterligare specificera vad du är intresserad av att veta? Som jag förväntar mig kommer det att sluta annars.
Vad vill du använda datortjänsterna till? Har du tillgång till ett universitet, forskningsinstitut eller annan akademisk anläggning? Finns det en särskild anledning till att din stationära eller bärbara dator inte är lämplig?
Vilken typ av beräkning är du intresserad av? Det finns specialiserade företag för bioinformatik som outsourcer beräkningarna på Google Cloud eller Amazon. Jag tror att för olika typer av beräkningar bör du kontakta ett annat företag ...
För tillfället är detta en rent teoretisk fråga eftersom datoranläggningarna vid mitt universitet är mer än tillräckliga för RNA-seq-dataanalys. Jag letar bara efter en enkel lista över företag som tillhandahåller den här tjänsten, för en enkel sökning ger inte många tillbaka. I min ideala miljö är jag inte beroende av förinstallerad programvara (dvs jag kan installera programvara), kommandoradsinteraktion (bash) är snabb och jag kan lita på företaget för säkerhetskopior etc - så jag är också intresserad av platsen för leverantören, hur länge det har funnits och de datorer som de har.
Jag tror inte att det här är en bra fråga eftersom det inte finns något bra svar (eller åtminstone svaret ska vara en lista, inte en leverantör), så jag länkar bara de leverantörer jag känner: [DNAnexus] (https: / /www.dnanexus.com/) (privat) och [Vital-it] (http://www.vital-it.ch/) (akademiskt)
Det här inlägget är för brett.
Relaterat inlägg: https://www.biostars.org/p/86463/
Vilken typ av bioinformatikanalys planerar du att göra?
@arupgsh Se min kommentar ovan
Jag ställde upp detta eftersom att fråga om listor som detta verkligen inte passar särskilt bra för Q & A-format och bättre passar till något som ett forum där en diskussion kan hållas. Se [detta gamla blogginlägg] (https://stackoverflow.blog/2010/11/23/qa-is-hard-lets-go-shopping/) för en förklaring av det allmänna motiveringen bakom att överväga denna typ av frågor utanför ämnet .
Sju svar:
Chris_Rands
2017-06-12 17:51:04 UTC
view on stackexchange narkive permalink

Jag har testat den kostnadsfria versionen av InsideDNA, och dessa var mina anteckningar:

  • Kostnad: $ 225 / månad för ett team på 5 med 50 TB lagring eller $ 45 / månad med 10 TB lagring för privatpersoner (förutsatt 6 månaders paket: https://insidedna.me/pricing).
  • Programvara installerad: Cirka 600 bioinformatiska verktyg tillgängliga och standardkommandoradsverktyg; några populära verktyg saknas (som CD-HIT), men bör kunna installeras på begäran.
  • Jobb: Maximalt 32 processorer och 208 RAM per inlämning av jobb. Testjobb fungerade vanligtvis, även om ett större testjobb misslyckades.
  • Andra punkter: Kommandoraden var ibland långsam, wget frågorna var långsamma och scp var blockerad. Det kan dock vara lösbara problem.

Sammantaget kände jag att InsideDNA kunde vara användbart för grupper utan egen beräkningsinfrastruktur och kunde användas för att enkelt dela resurser mellan grupper. Paketen som erbjuds verkar inte dyra, men jag hade några problem och jag vet inte hur bra deras systemadministratörsstöd skulle vara.

Jag har inte använt Amazon-tjänsten, så jag kan inte kommentera bortom detaljerna på deras webbplats. Det finns också några alternativa företag, som Genestack och DNAnexus, men jag har inte heller testat dem heller.

Daniel King
2017-07-25 18:07:46 UTC
view on stackexchange narkive permalink

Jag är inte säker på vilka typer av bioinformatikuppgifter du vill utföra, därför är det svårt att ge en bra rekommendation.

Om du specifikt arbetar med statistisk genetik kan jag rekommendera Hail [1]. Hail är ett open source-verktyg för att analysera genetikdata i tiotals terabyte-skala. De flesta av Hagels användare gör sin vetenskap i Jupyter-anteckningsböcker som stöds av Google Cloud Platform Dataproc-kluster. Hail tillåter dig att utföra en mängd olika statistiska genetiska uppgifter inklusive:

  • filtrering och aggregering för kvalitetskontroll
  • delmängd, linjär regression, linjär blandad modellregression och linjär belastningstestning
  • verktyg för beräkning av olika mått på släkt
  • analys av huvudkomponenter
  • variantuppdelning
  • import / export från olika format inklusive PLINK , VCF och BGEN, och
  • ett python-API som möjliggör användning av bibliotek som matplotlib för att plotta analysresultat

Att lära sig specifikt om hur du använder Hail med Google Cloud Plattforms- och Jupyter-anteckningsböcker, jag rekommenderar starkt Liams Hail-foruminlägg om hans molnverktygsförvar.

Här är ett exempel från Hail-handboken, av använder Hail för att utföra en viss kvalitetskontroll och visa en spridningsdiagram över de två första huvudkomponenterna hos individerna:

  från hagelimport * import m atplotlib.pyplot som pltimport matplotlib.patches som mpatcheshc = HailContext () tabell = hc.import_table ('data / 1kg_annotations.txt', impute = True) .key_by ('Sample') common_vds = (hc.read ('data / 1kg .vds ') .annotate_samples_table (tabell, root =' sa '). sample_qc () .filter_samples_expr (' sa.qc.dpMean > = 4 && sa.qc.callRate > = 0,97 ')' .filter_ '.' = g.ad [1] / g.ad.sum () i ((g.isHomRef && ab < = 0,1) ||
(g.isHet && ab > = 0,25 && ab < = 0,75) || (g.isHomVar && ab > = 0.9)) '' '.) .variant_qc () .filter_variants_expr (' va.qc.AF > 0.01 ') .ld_prune (memory_per_core = 512, num_cores = 4 )vd.ca = 'sa.pca', k = 5, egenvärden = 'global.eigen') pca_table = pca.samples_table (). to_pandas () colours = {'AFR': 'green', 'AMR': 'red', 'EAS ':' svart ',' EUR ':' blå ',' SAS ':' cyan '} plt.scatter (pca_table ["sa.pca.PC1"], pca_table ["sa.pca.PC2"], c = pca_table ["sa.SuperPopulation"]. karta (färger), alfa = .5) plt.xlim (-0.6, 0.6) plt.xlabel ("PC1") plt.ylabel ("PC2") legend_entries = [mpatches.Patch (färg = c, etikett = feno) för feno, c i färger. artiklar ()] plt.legend (handtag = legend_entries, loc = 2) plt.show ()  

[1 Ansvarsfriskrivning: Jag jobbar med hagel

G_Hannigan
2017-06-12 18:56:06 UTC
view on stackexchange narkive permalink

Beroende på dina applikationer och användningar kan du vara intresserad av att kolla in CyVerse. Det är ett NSF-finansierat initiativ som ger dig datalagring, högpresterande datorresurser och enkel åtkomst till vanliga verktyg. Så vitt jag vet är det gratis att använda när du har ett konto. Jag stöter också vanligtvis på att den används med växt- och mikrobiell genomik, så jag är inte säker på hur det kommer att fungera med något som humana genomikprojekt. Men det kan vara värt att kolla in åtminstone. :)

Mer information: http://www.cyverse.org/about

woemler
2017-06-14 01:46:40 UTC
view on stackexchange narkive permalink

Det beror verkligen på vad du försöker göra, men här är några tjänster jag känner till.

  • GATK på Google Genomics Cloud: Google och Broad erbjuder en molninstans skräddarsydd för GATK-rörledningar.
  • Genomics på Amazon Web Services: Jag tror inte att det finns något som gör detta unikt, men Amazon erbjuder resurser för att hjälp att komma igång med genomik / life science-centrerade molnlösningar.
  • Illumina Bioinformatics: Illumina arbetar med en hel serie bioinformatikprogramvara för molnet.
  • Cancer Genomics Cloud: Detta är specifikt för cancergenomik, men jag tror att Seven Bridges låter dig driva in alla slags data i verktyget och analysera det.
exaudio
2017-06-13 01:17:58 UTC
view on stackexchange narkive permalink

Google Genomics

Google har ett API som heter Google Genomics.

SNPedia

"SNPedia är en wiki som undersöker mänsklig genetik . "snpedia.com

Promethease

" Promethease är ett litteraturhämtningssystem som bygger en personlig DNA-rapport "promethease.com

DNA Land

"Jämför DNA med referensdata från olika populationer" dna.land

CyDAS-projektet

Och det finns CyDAS-projektet som har ett API som kan analysera ISCN-formler. Enligt deras webbplats: deras API "låter dig analysera en Karyotype för praktiskt taget all information som kan extraheras från karyotyper och omlagringar däri: vinster och förluster av kromosomalt material, brytpunkter, korsningar ..." Det är en gratis tjänst, men jag vet inte hur uppdaterad den är.

alpha_989
2017-08-07 03:47:17 UTC
view on stackexchange narkive permalink

Det finns ton av dem. Utöver de utmärkta som alla nämnde

  1. iRods

  2. Arvados

  3. Galaxy

Varken Galaxy eller iRods är molntjänster. Jag misstänker att Arvados inte är det heller, men jag har aldrig använt det.


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...