Undervisning i elementa i analys av stora datamängder

Recommend
  • Facebook
  • Twitter
  • Google Plus
  • LinkedIN
  • Pinterest
Share
Tagged in

Bakgrund

Karolinska Institutet skulle starta en nationell forskarskola i klinisk transnationell cancerforskning i samarbete med Uppsala och Linköpings universitet. Utbildningen skulle bedrivas intensivt i korta block med olika fokus. Ett sådant block blev orientering i system- biologi med koppling till cancer och en dryg veckas utbildning reserverades för detta. Flera forskargrupper på KI inom fältet inbjöds att bidra med föreläsningar kring sin forskning. Samtidigt ville man ge doktoranderna viss elementär förståelse för analys av stora datamängder för att hjälpa dem i framtida dialog med statistiker som ofta är med på något sätt i större forskningsprojekt.

Lösning

Vi bestämde att ha en serie dator-övningar för att illustrera begreppen kring analys av stora datamängder och att de sista dagarna ha ett projekt med elevernas egna data alternativt förberedda uppgifter. Valet föll på en kommersiell programvara från Qlucore i Lund som fokuserat starkt på användarvänlighet. Vi lämnade därför open-source alternativen åt sidan. Med Qlucore kan man interaktivt använda explorativa tekniker som: principal-komponent analys, heat-map och graph-of-neighbors. Det är sedan lätt att interaktivt formulera hypo­testest och använda traditionella statistiska metoder. Förutom p-värden beräknas även kompletterande q-värden som ger ett mått på graden av ”falska positiva” resultat som är viktigt att ha koll på för den här typen av analyser. Övningar gjordes på data set från Qlucore med Leukemi-patienter och genetisk profil för varje patient och olika varianter av sjukdomen kunde relativt lätt upp­täckas med de här teknikerna.  Inledningsvis hölls ett par föreläsningar i samarbete med personal från SciLifeLab och avslutningsvis gjordes ett mindre projekt där resultaten presenterades och diskuterades i gruppen.

Resultat

Arrangör och elever var mycket nöjda med den sammanhållna ”hands-on” sessionerna vid dator och avslutande projekt. Kursen upprepades två år senare med mindre justeringar. Figur: Datareduktion av genuttryck data med PCA kompletterad med ”graph-of-neighbours” beräknat på oreducerad data. Varje punkt representerar en patient och dess position i rummet bestäms av genuttryck för varje gen mycket kraftigt reducerat ner till bara tre dominerande komponenter. Klustren korresponderar ganska väl till olika kända former av Leukemi enligt färgmarkering. Bild hämtad från manualen för Qlucore Omics Explorer.    

In English

Sedan 1997 har vi framgångsrikt hjälpt våra kunder att leda och utveckla sina verksamheter. Vi har specialiserade konsulter med lång och bred erfarenhet från näringsliv, myndigheter, kommuner och statliga företag.