Kodning nyckeln till öppenhetens revolution inom samhällsvetenskaperna

De stängda forskningsmiljöernas tid är förbi, säger datavetare Kimmo Vehkalahti. Hans kurs i statistik bryter mot stereotypier.

När Kimmo Vehkalahti under föreläsningen presenterar sig själv som statistiker kan han ana åhörarnas förfäran. Hos många väcks antipatier som härstammar från någon obligatorisk statistikkurs för länge sen. Därför presenterar sig Vehkalahti hellre som datavetare – och åhörarna tycker att han är cool.

Vehkalahti har undervisat flera MOOC-kurser vid Helsingfors universitet. MOOC-kurserna är ”masskurser”, varav en, Open Data Science, håller på att revolutionera forskningen inom humaniora och samhällsvetenskaper.

Vehkalahtis arbetsrum på Unionsgatan skiljer sig från mängden med sina färgglada bokhögar och affischer med teman från konst, arkitektur, psykologi, biologi och andra vetenskaper.

– Som metodvetare är jag kompis med alla vetenskaper och är den berömda ”universaldocenten”, skrattar docenten i statistik.

Två böcker sticker ut: den framlidne Hans Roslings Factfulness och Kimmo Vehkalahti & Brian S. Everitts Multivariate Analysis for the Behavioral Sciences.

Den förstnämnda är Vehkalahtis svenska idols bästsäljare, som bland andra IT-miljardären Bill Gates och USA:s förre president Barack Obama har inkluderat på listor över sina favoritböcker. Den senare är en pinfärsk publikation som Vehkalahti anser vara den mest betydande under hans karriär.

– Brian S. Everitt är en legend inom statistiken och det är alldeles fantastiskt att jag fått skriva den här boken tillsammans med honom, säger Vehkalahti entusiastiskt.

Nya metoder tar forskningen till nästa nivå

Open data, open science och data science, listar Vehkalahti namnen på sina kurser som tar upp de hetaste trenderna inom vetenskapen. Under kurserna undervisas samhällsvetare och humanister i kodning, skapande av modeller och programmering samt i att tillägna sig den öppna vetenskapens verktyg och tänkande.

– Kunskapens karaktär har revolutionerats under de senaste åren och den nya situationen kräver att forskarna uppdaterar sin kompetens. Exempelvis i sociala medier kan man ladda ner enorma material och intressanta data, som dock är i ett format som inte kan analyseras med traditionella statistiska metoder.

Data från Twitter-diskussioner i valtider utgör exempelvis en guldgruva för forskare i politik. En forskare som sysslar med konsumtionsforskning kan för sin del vara intresserad av exempelvis Facebook-gruppen Sipsikaljavegaanit, där människor diskuterar mat. Om man ger sig in för att undersöka data av detta slag – tusentals, miljoner meddelanden – manuellt meddelande för meddelande är man dömd att misslyckas.

Man behöver tillgång till programmeringsgränssnittet, vilket för sin del förutsätter någon slags förståelse av programmering. Efter att man laddat ner data måste de konverteras till ett användbart format, exempelvis numeriskt, och för detta krävs en programvara såsom R.

Vad du än funderar på, hittar du troligtvis svaret i R

R-programmeringsspråket är ett av Vehkalahtis favoritämnen. R är nära sammankopplat med samma tänkande som det är fråga om på Open Data Science-kursen: öppen vetenskap och data.

R är ett programmeringsspråk och ett program med öppen källkod. Kärnan utgörs av en statistikprogramvara som kan expanderas med olika paket. Inom naturvetenskaperna har R redan använts under en längre tid, men inom humaniora och samhällsvetenskaperna är R-revolutionen ännu i sin linda.

Med hjälp av R kan forskaren exempelvis kombinera sina data med kartor i Google Maps och på detta sätt visualisera sitt material, till exempel hur fattigdom eller kriminalitet tar sig uttryck i det valda geografiska området.

– Om du funderar på om R kan ha en koppling till ett ämne, är det ganska säkert att det redan finns ett paket avsett för just detta syfte, säger Vehkalahti.

De stängda miljöernas tid är förbi

Utöver R bekantar sig deltagarna i Open Data Science-kursen med andra verktyg inom öppen forskning, såsom GitHub, där forskningsdata och annat material lätt kan delas med andra.

Vehkalahti nämner även LaTeX-typsättningsprogrammet, som automatiserar utarbetandet av de vetenskapliga formkraven på texten och källhänvisningarna, varvid forskaren kan koncentrera sig på att bara skriva.

Vehkalahti konstaterar att de stängda miljöernas och programvarornas tid börjar vara förbi.

– De väcker frågor och misstankar, fördröjer den vetenskapliga utvecklingen och försvårar vetenskapens självkorrigering.

Vetenskapens framtid finns i öppenhet, såsom öppna data, som man börjat tala och skriva mycket om under de senaste åren. Öppna data är viktigt, men enligt Vehkalahti är öppen programkod som uppkommer exempelvis vid användningen av R minst lika viktig.

– I korthet är det fråga om vad exakt forskaren gjorde för att nå sina resultat. Man talar alltså om varje val som forskaren har gjort i sin arbetsprogramvara.

Varje session i R sparas som en kod, av vilken alla gjorda val framgår. På detta vis kan forskaren själv eller vem som helst annan senare upprepa forskningen.

– Detta är avgörande vid forskning. Enbart data i sig är inte användbara om man inte har någon aning om vad som har gjorts med dessa. Inom vetenskapen, i synnerhet psykologin, har det rått en så kallad reproducerbarhetskris under de senaste åren, dvs. man har misslyckats med att upprepa ett flertal forskningsresultat trots försök. En del av dessa problem skulle lösas med öppen programkod, betonar Vehkalahti.

Vem som helst kan lära sig använda de nya verktygen

Vår tid har beskrivits som post truth-åldern, där känsla är viktigare än information eller sanning. Även vetenskapen har känt av detta.

– Vetenskapens tillförlitlighet ökar, då i praktiken vem som helst som så önskar kan få tillgång till forskningsmaterialet och till och med upprepa försöken utan att pengar eller tillgänglighet utgör hinder, säger Vehkalahti.

Omfattande datamaterial är förknippade med enorma möjligheter. Vehkalahti återkommer till sin idol Hans Rosling och hans arbete för att göra samhälleligt betydande material öppna.

– Tack vare Rosling och hans Gapminder-stiftelse har vi bland annat tillgång till FN:s, WHO:s och världsbankens enorma material. Personer som har verktyg och kompetens kan hitta svar på stora frågor i dessa och andra material.

Vehkalahti anser att vem som helst kan ta i bruk det nya forskningsgreppet. För att komma igång kan man exempelvis besöka en webbplats som underhålls av Helsingfors universitet och innehåller information om och resurser för praxis och verktyg inom öppen vetenskap.

– Det viktiga är att man lär sig tänka med data och algoritmer som utgångspunkt, och se möjligheter där man inte sett dem tidigare. Och om lärarna eller forskarna försöker sätta käppar i hjulen ska man komma ihåg att det är studenternas uppgift att ifrågasätta, säger Vehkalahti.

 

Kimmo Vehkalahti

Doktor i statsvenskap, docent i tillämpad statistik, Helsingfors universitet

Kimmo Vehkalahti på Twitter @KimmoVehkalahti