Jag försöker förstå hur GSVA-analysen fungerar bakom kulisserna. Och jag undrade om det finns något sätt att förstå det mer intuitivt hela processen.
Så först enligt papper det börjar med att utvärdera om en gen i uttrycks starkt eller lågt i prov j i samband med provpopulationens fördelning. De använder dessa kärnuppskattningar av kumulativa densitetsfunktioner för att transformera de initiala värdena så att de inte påverkas av de problematiska intensiteterna.
Efter denna "transformation" och en efterföljande normalisering beräknar GSVA berikningsresultaten med Kolmogorov-Smirnov (KS) som slumpmässigt promenadstatistik .
Som jag vet kollar Kolmogorov-Smirnov efter skillnader i distributioner. Vilka distributioner kontrollerar den? Gene-set är mot alla andra gener? Och vilken roll har slumpmässig promenad?
Finns det något intuitivt sätt att förstå denna typ av Kolmogorov-Smirnov (KS) som en slumpmässig statistik? Hur fungerar det egentligen? Vilken är noll och vilken alternativ hypotes i så fall?