Tieteen tulevaisuus on avoimuudessa, kuten avoimessa datassa

Suljettujen tutkimusympäristöjen aika on ohi, sanoo datatieteilijä Kimmo Vehkalahti. Hänen vetämänsä tilastotieteen kurssi rikkoo stereotypioita.

Kun Kimmo Vehkalahti esittelee itsensä luennolla tilastotieteilijänä, hän voi aistia kauhun yleisössä. Monella pintaan nousevat antipatiat jotakin kauan sitten käytyä, pakollista tilastotieteen kurssia kohtaan. Siksi Vehkalahti esitteleekin itsensä mieluummin datatieteilijänä – ja yleisö pitää häntä coolina.

Vehkalahti on vetänyt Helsingin yliopistossa useita suosittuja MOOCeja eli massakursseja, joista yksi, Open Data Science, on mullistamassa tapaa, jolla tehdään humanistista ja yhteiskuntatiedettä.

Vehkalahden työhuone Unioninkadulla erottuu muista värikkäine kirjapinoineen ja julisteineen, jotka kertovat taiteesta, arkkitehtuurista, psykologiasta, biologiasta ja muista tieteistä.

– Menetelmätieteilijänä pääsen olemaan kaikkien tieteiden kaveri ja se kuuluisa ”kaiken maailman dosentti”, soveltavan tilastotieteen dosentti naurahtaa.

Kaksi kirjaa erottuu muista: edesmenneen Hans Roslingin Factfulness ja Kimmo Vehkalahden & Brian S. Everittin Multivariate Analysis for the Behavioral Sciences.

Edellinen on Vehkalahden ruotsalaisen idolin menestysteos, jonka muun muassa IT-miljardööri Bill Gates ja Yhdysvaltain entinen presidentti Barack Obama ovat nostaneet suosikkikirjojensa listoille. Jälkimmäinen on uunituore julkaisu, jota Vehkalahti pitää oman uransa merkittävimpänä.

– Brian S. Everitt on tilastotieteen alalla legenda, ja on aivan uskomatonta, että olen päässyt tekemään hänen kanssaan tämän kirjan, Vehkalahti sanoo innostuneesti.

Uudet menetelmät vievät tutkimuksen ”next levelille”

Open data, open science ja data science, Vehkalahti pyörittelee vetämänsä kurssinsa nimeä, joka sisältää tieteen kuumimmat trendit. Kurssilla yhteiskuntatieteilijöitä ja humanisteja opetetaan koodaamaan, mallintamaan ja ohjelmoimaan sekä omaksumaan avoimen tieteen työkalut ja ajattelu.

– Tiedon olemus on järkkynyt viime vuosina, ja uusi tilanne vaatii, että tutkijat päivittävät osaamisensa. Esimerkiksi sosiaalisesta mediasta voidaan ladata valtavia aineistoja ja mielenkiintoista dataa, joka on kuitenkin sellaista, ettei se aukea perinteisillä tilastollisilla menetelmillä.

Esimerkiksi vaalien alla Twitter-keskusteluista saatava data on herkullista politiikan tutkijoille. Kulutustutkimusta tekevä saattaa puolestaan olla kiinnostunut vaikkapa Facebookin Sipsikaljavegaanit-ryhmästä, jossa ihmiset keskustelevat ruuasta. Jos tällaista dataa – tuhansia, miljoonia viestejä – lähtee tutkimaan manuaalisesti viesti kerrallaan, on tuomittu epäonnistumaan.

Tarvitaan pääsy ohjelmointirajapintaan, mikä taas edellyttää jonkinasteista ymmärrystä ohjelmoinnista. Datan lataamisen jälkeen se pitää kääntää käytettävään, esimerkiksi numeeriseen, muotoon, mihin tarvitaan R:n kaltaista ohjelmistoa.

Mitä tahansa mietitkin, R:stä löytyy todennäköisesti vastaus

R-ohjelmointikieli on yksi niistä asioista, jotka saavat Vehkalahden innostumaan. R liittyy keskeisesti samaan ajatteluun, josta on kyse myös Open Data Science -kurssilla: avoimeen tieteeseen ja dataan.

R on ohjelmointikieli ja ohjelma, jonka lähdekoodi on vapaasti saatavissa. Sen ytimessä on tilastollinen ohjelmisto, jota voidaan laajentaa erilaisilla paketeilla. Luonnontieteissä R:ää on käytetty jo pitkään, mutta humanistisissa ja yhteiskuntatieteissä R-vallankumous on vasta alkamassa.

R:n avulla tutkija voi esimerkiksi yhdistää dataansa Google Mapsin karttoihin ja näin visualisoida aineistonsa, vaikkapa sen, miten köyhyys tai rikollisuus näkyy valitulla maantieteellisellä alueella.

– Jos mietit, voisiko R:llä olla yhteys johonkin asiaan, niin aika varmasti juuri siihen tarkoitukseen on olemassa jo paketti, Vehkalahti sanoo.

Suljettujen ympäristöjen aika on ohi

R:n lisäksi Open Data Science -kurssin opiskelijat tutustuvat muihin avoimen tieteentekemisen työkaluihin, kuten GitHubiin, jossa tutkimukseen liittyvää dataa ja muuta materiaalia voidaan helposti jakaa muiden nähtäville ja käyttöön.

Vehkalahti mainitsee myös LaTeX-ladontaohjelman, joka automatisoi tekstin ja lähdeviitteiden tieteellisten muotovaatimusten tekemisen, jolloin tutkija voi keskittyä puhtaasti kirjoittamiseen.

Vehkalahti toteaa, että suljettujen ympäristöjen ja ohjelmistojen aika alkaa olla ohi.

– Ne herättävät kysymyksiä ja epäilyjä, hidastavat tieteen kehitystä ja vaikeuttavat tieteen itseään korjautuvuutta.

Tieteen tulevaisuus on avoimuudessa, kuten avoimessa datassa, josta on viime vuosina alettu puhua ja kirjoittaa paljon. Avoin data on tärkeää, mutta Vehkalahden mukaan vähintään yhtä tärkeää on avoin ohjelmakoodi, joka syntyy esimerkiksi R:ää käyttämällä.

– Tiivistettynä kyse on siitä, mitä tutkija tarkalleen ottaen teki, jotta hän pääsi tuloksiinsa. Puhutaan siis jokaisesta valinnasta, jonka tutkija on tehnyt työohjelmistossaan.

Jokainen R:ssä vietetty sessio tallentuu koodiksi, josta näkyy kaikki tehdyt valinnat. Näin tutkija itse tai kuka tahansa muu voi myöhemmin toistaa tutkimuksen.

– Tämä on aivan ehdottoman tärkeää tieteenteossa. Ei pelkällä datalla tee mitään, jos ei ole hajuakaan, mitä sillä on tehty. Tieteessä, ja erityisesti psykologiassa, on lähivuosina ollut niin sanottu toistettavuuskriisi, eli lukuisia tutkimustuloksia ei ole yrityksistä huolimatta saatu toistettua. Osa näistä ongelmasta ratkeaisi avoimella ohjelmakoodilla, Vehkalahti painottaa.

Uusia työkaluja voi oppia käyttämään kuka tahansa

Aikaamme on kuvailtu totuuden jälkeiseksi ajaksi, jossa tietoa tai totuutta tärkeämpää on tunne. Myös tiede on saanut tästä osansa.

– Tieteen luotettavuus lisääntyy, kun käytännössä kuka tahansa voi halutessaan saada käsiinsä tutkimusmateriaalia ja jopa toistaa kokeet ilman, että raha tai saatavuus olisivat esteinä, Vehkalahti sanoo.

Mahdollisuudet laajojen data-aineistojen kanssa ovat valtavat. Vehkalahti palaa idoliinsa Hans Roslingiin ja hänen työhönsä yhteiskunnallisesti merkittävien aineistojen vapauttamisessa.

– Kiitos Roslingin ja hänen Gapminder-säätiönsä, meillä on käytössä muun muassa YK:n, WHO:n ja maailmanpankin valtavat aineistot. Ne, joilla on työkalut ja osaaminen, voivat löytää näistä ja muista aineistoista vastauksia isoihin kysymyksiin.

Vehkalahti uskoo, että kuka tahansa voi ottaa uudenlaisen tutkimusotteen työhönsä. Alkuun pääsee vaikkapa Helsingin yliopiston kirjaston ylläpitämiltä sivuilta, josta löytyy tietoa ja resursseja avoimen tieteen käytänteistä ja työkaluista.

– Tärkeää on se, että oppii ajattelemaan datalähtöisesti ja algoritmisesti, näkemään mahdollisuuksia siellä, missä ei niitä ennen nähnyt. Ja jos opettajat tai tutkijat meinaavat jarrutella, pitää muistaa, että opiskelijoiden tehtävä on kyseenalaistaa, Vehkalahti sanoo.

Vehkalahti on valtiotieteiden tohtori ja soveltavan tilastotieteen dosentti.