Så vitt jag vet tillhandahåller Illumina CSV-anteckningsfiler för alla deras sekvenseringschips, som kan användas när de inte kan hittas i Bioconductor. Du kan hitta anteckningsinformation för PorcineSNP60 här, särskilt Manifest-filen (CSV-format). Formatet är Illuminas konstiga "vi säger att det är en CSV eftersom det finns komma i det" -formatet, så om det bara finns några få platser av intresse skulle det vara lättare att använda grep än att försöka träna på rätt sätt att ladda det till R (eller liknande).
För fullständigheten vill du ha raderna mellan [analys] och [kontroller] . Här är ett exempel på sätt att förbehandla "CSV" -filen till ett mer standardformat som bara har en datatabell:
$ grep -n '^ \ [' PorcineSNP60v2_15031945_C1.csv 2 : [Rubrik] 7: [Analys] 61574: [Kontroller] ### Se till att tabellen börjar vid rad 8 (efter [analys]), ### och avslutas vid rad 61753 $ svans -n +8 PorcineSNP60v2_15031945_C1.csv | head -n $ ((61574-8)) > rensade_PorcineSNP60v2_15031945_C1.csv
Men för några markörer och grep spelar det ingen roll om du arbetar med den rena eller smutsiga CSV fil:
$ grep -e '^ IlmnID' -e '^ MARC0073381' -e '^ ALGA0066960' PorcineSNP60v2_15031945_C1.csvIlmnID, Namn, IlmnStrand, SNP, AddressA_ID, AlleleA_ProbeSeq, All GenomeBuild, Chr, MapInfo, ploiditet, Species, Source, SourceVersion, SourceStrand, SourceSeq, TopGenomicSeq, BeadSetID, Exp_Clusters, Intensity_OnlyALGA0066960-2_B_F_2199219285, ALGA0066960, BOT, [T / G], 0054749354, TGCCACAGGTCTGCTCAGCTCAAGCCCAACACTCGCAAGATACAGGTCTA ,,, 10.2,12,55218591, diploid, Sus scrofa, PorcineSNP60v2,2, BOT, GGCTCACCTCTGCCACAGGTCTGCTCAGCTCAAGCCCAACACTCGCAAGATACAGGTCTA [T / G] CCAGGCTTCTCTCTCCTACTCCTAGGGCCCCTGATGGTTCCTGCATCCTGACCAATAGTG, CACTATTGGTCAGGATGCAGGAACCATCAGGGGCCCTAGGAGTAGGAGAGAGAAGCCTGG [A / C] TAGACCTGTATCTTGCGAGTGTTGGGCTTGAGCTGAGCAGACCTGTGGCAGAGGTGAGCC, 670,3,0
MARC0073381-2_T_F_2199252059, MARC0073381, TOP, [A / G], 0047761415, TGGAACGGATGGTGGAGACATTCTGGAGACAGAAGACAAACTGCTTCAGA ,,, 10.2,7,61808556, diploida, Sus scrofa, PorcineSNP60v2,2, TOP, CAACTGTGGTTGGAACGGATGGTGGAGACATTCTGGAGACAGAAGACAAACTGCTTCAGA [A / G] CAAAGCTCAGGAAGGCAA, CAACTGTGGTTGGAACGGATGGTGGAGACATTCTGGAGACAGAAGACAAACTGCTTCAGA [A / G ] CAAAGCTCAGGAAGGCAA, 660,3,0
Jag kan av detta se att den första markören är kromosom 12, position 55218591, och den andra markören är kromosom 7, position 61808556. Illumina-anteckningen inte inte inkludera närmaste gen, så du måste leta efter dessa platser i en genombläddrare (eller använda kartläggning med Bioconductor).