Datatiede tulkitsee ilmakehän hiukkasia ja auttaa löytämään kaupungin puhtaimmat kulkureitit – jos osaamme kysyä koneelta oikeita asioita

Kai Puolamäki on entinen internetoikeuksien aktiivi ja nykyinen ilmakehätiedettä ja tietojenkäsittelyä yhdistävä tutkija. Hän tahtoo tehdä datasta avointa ja avata tekoälyn mustat laatikot.

Tuoreen apulaisprofessorin työhuoneen kattolampusta roikkuu mitaleja. Kai Puolamäki on pokannut ne osallistumisista juoksutapahtumiin, enimmäkseen kymmenen kilometrin kisoihin ja puolimaratoneille. Juoksemisen hän aloitti vasta pari vuotta sitten, mutta kehitys on ollut nopeaa.

– Vähän mietityttää, mihin olisin päässyt, jos olisin aloittanut juoksemisen nuorempana, hän naurahtaa.

Taustaltaan Puolamäki on fyysikko, joka loikkasi tietojenkäsittelytieteen puolelle ja teki pitkään töitä Aalto-yliopistossa. Syksyllä hän aloitti tietojenkäsittelytieteen ja ilmakehätieteiden apulaisprofessorina Helsinki Centre for Data Science -tutkimuskeskuksessa (HiDATA).

Datatieteilijä tarvitsee substanssiosaajia

Helsingin yliopistolla Kai Puolamäen tehtävä on tuoda datatieteen ja koneoppimisen menetelmät osaksi ilmakehätiedettä. Mitä se tarkoittaa käytännössä?

– Kaikissa luonnontieteissä kertyy paljon mittausdataa. Ilmakehätieteissä sitä tulee esimerkiksi hiukkasten kulkeutumisen mallintamisesta ja muista ilmakehän ilmiöistä. Kun tietoa on valtavan paljon, ilmeinen kysymys on, mitä sillä tehdään. Tässä kohtaa datatiede astuu peliin, Puolamäki kertoo.

Esimerkiksi ilmanlaadun mittausmenetelmiä kehittävässä MegaSense-projektissa datatieteen ja koneoppimisen menetelmät auttavat ymmärtämään tietoa, jota erilaiset sensorit keräävät suurkaupungeista. Sensorit ovat tarkkuudeltaan eritasoisia ja mittaavat ilmanlaadusta erilaisia asioita.

Datatieteilijän tehtävä on hahmottaa kaikesta tästä kattava ja luotettava kuva esimerkiksi hengitysilman hiukkaspitoisuudesta. Datatiedettä tarvitaan myös silloin, kun ilmanlaatuaineistoja halutaan yhdistää muihin tietoaineistoihin ja etsiä niistä säännönmukaisuuksia. Tätä ei voi tehdä yksin.

– Datatieteilijä tarvitsee aina yhteistyötä substanssiosaajan kanssa. Hänen kanssaan mietitään, mikä kertyvässä tietomassassa on oleellista ja miten tiedon saa hyötykäyttöön, Puolamäki sanoo.

MegaSensen näkökulmasta hyöty voisi tarkoittaa esimerkiksi sitä, että kaupunkilainen voi saada kännykkäänsä reaaliaikaista tietoa kotikaupunkinsa ilmanlaadusta. Näin hän voi valita puhtaimmat kulkureitit. Päättäjät voivat käyttää ilmanlaatutietoja esimerkiksi liikennevirtojen ohjaamiseen.

– Pyrimme siihen, että niin tavalliset ihmiset kuin ammattilaiset voisivat ymmärtää käytettävissä olevaa dataa. Tämä onnistuu parhaiten, kun data on avoimesti saatavilla, Puolamäki sanoo.

Tarkempaa tiedonlouhintaa  

Puolamäki tutkii myös niin sanottua eksploratiivista data-analyysiä, uuden tiedon etsimistä suurista tietomääristä. Se tähtää siihen, että tietoa louhivat automaattiset järjestelmät voisivat vuorovaikuttaa asiantuntijoiden kanssa ja olla heille mahdollisimman hyödyllisiä.

Ilmakehätieteilijä ja data-analyytikko voivat esimerkiksi työstää yhdessä laajaa tietoaineistoa. Käytössä voi olla hieno automatisoitu dataa analysoiva järjestelmä, mutta silti voi käydä niin, että se löytää vain asioita, jotka ilmakehätieteilijä jo tietää.

– Menetelmä on toki hyvä, jos se löytää ilmeiset asiat. Mutta miten järjestelmä voisi näyttä ihmiselle jotain sellaista mitä hän ei jo tiedä?

Esimerkiksi säätä koskevassa aineistossa tiedon louhintamenetelmä voisi näyttää ensimmäisenä sään säännöllistä vuotuista vaihtelua.

– Asiantuntijaa kiinnostaa kuitenkin usein tutkia ilmiöitä, jotka eivät selity tällä tunnetulla piirteellä. Siksi asiantuntijan pitäisi voida kertoa koneelle tällaisista tunnistetuista efekteistä, ja koneen pitäisi voida näyttää asiantuntijalle jotain, mitä hän ei jo tiedä, Puolamäki sanoo.

Puolamäen ryhmä yrittää kehittää tiedonhaun menetelmiä, joiden avulla kone voisi kaivella datasta oikeasti uutta tietoa, niin että se minkä ihminen jo tietää otetaan huomioon. Näin ihmisen ja koneen parhaat puolet saataisiin yhdistettyä.

– Demosovelluksia tällaisesta on jo. Taustalla on iso tietojenkäsittelytieteen menetelmien kirjo.

Mustat laatikot auki

Puolamäen mukaan meidän on tärkeää miettiä myös sitä, miten ihminen voisi ymmärtää erilaisia koneoppimisen menetelmiä yhä paremmin.

– Tehokas neuroverkko rouskuttaa tietoa ja sylkee tuloksen, mutta emme välttämättä tiedä, mihin koneen sisäinen päättely perustuu. Vaikka neuroverkon toimintaperiaatteet ymmärretään yleisellä tasolla, se voi luoda miljoonien ihmisten aineistosta äärettömän monimutkaisia sisäisiä sääntöjä, joita kukaan ei voi sisäistää kokonaan.

Voimmeko siis luottaa koneeseen?

– Ihmisen pitäisi voida ymmärtää, mitä kone tekee ja hänen pitää voida vaikuttaa tähän prosessiin. Tällainen mustien laatikoiden avaaminen on kiinnostavaa, Puolamäki sanoo.

Tietotyö tarvitsee vastapainoa

Ennen Helsingin yliopistolle tuloa Puolamäki työskenteli Työterveyslaitoksella, jossa hän muun muassa johti Aivot ja työ -tutkimuskeskusta. Puolamäki voisi pitää viereisissä huoneissa koneitaan naputtaville tietotyöläisille esitelmän työn ja levon tasapainosta ja palautumisen merkityksestä.

– Työstä pitää osata irtautua. Itselläni on periaate, että vähintään yhtenä päivän viikossa en tee mitään työhön liittyvää. Myös pitkä vauhtikestävyyslenkki auttaa unohtamaan työasiat.

Sinisilmäisyys on karissut, ja siksi emme äänestä sähköisesti

Datan avoimuus on Kai Puolamäelle tuttu teema. Kymmenisen vuotta sitten hän oli aktiivinen Electronic Frontier Finland ry:ssä, joka pyrki puolustamaan kansalaisten oikeuksia verkossa.

Yhdistys otti kantaa poliittisiin kysymyksiin kansalaisten sähköisistä oikeuksista, tietosuojasta ja tekijänoikeuksista. Puolamäki on ollut vaikuttamassa niin sananvapautta, yksityisyyttä kuin tekijänoikeuksia koskeviin nykylakeihin.

– Kun maailma ja yhteiskunta muuttuivat internetin myötä, halusimme, että poliitikot tekisivät päätöksiä, jotka perustuvat tietoon. Halusimme, että he arvostaisivat tiedon avoimuutta sekä yksityisyyden suojaa.

Yksi yhdistyksen saavutuksista on se, että seuraavissakaan vaaleissa emme äänestä sähköisesti. Vuosituhannen vaihteessa sähköistä äänestystä puuhattiin Suomeen innokkaasti, mutta lopulta korkein hallinto-oikeus kumosi pyrkimykset. Nykyisenä kyberuhkien aikana tuon ajan into näyttää sinisilmäisyydeltä.

– Silloin ajateltiin, että valtiollisetkin äänestykset pitää saada sähköisiksi, mutta riskejä vähäteltiin. Nykyään ymmärretään, että on hyvä, että meillä on fyysisiä paperilappuja, joita ihmiset voivat laskea, Puolamäki sanoo.

– Puhtaasti sähköisessä äänestyksessä on viime kädessä luotettava tietojärjestelmään. Paperiset äänet voidaan sen sijaan laskea hajautetusti ja eri puolueiden edustajien valvonnassa, mikä tekee vaalituloksen huomaamattomasta ja laajamittaisesta väärentämisestä hyvin vaikeaa.

Toistaiseksi Puolamäen verkkoaktiiviaika on takana, mutta tiedon avoimuus ja sen hyötykäyttö ohjaavat myös nykyistä työtä.

– Ehkä voin eläkkeellä sanoa, että ainakin yritin tehdä maailmasta vähän paremman paikan.  

Esit­te­lys­sä Hi­DA­TAn uu­det asian­tun­ti­jat

Tässä juttusarjassa esittelemme Helsinki Centre for Data Science -tutkimuskeskuksen (HiDATA) uusia tenure track -professoreita. 

Tutustu muihin osiin:

Spatiotemporaalisen data-analyysin apulaisprofessori Laura Ruotsalainen: Ih­mis­ten liik­keet aut­ta­vat suun­nit­te­le­maan pa­rem­pia kau­pun­ke­ja

Rinnakkaisen ja hajautetun datatieteen professori Keijo Heljanko: Kas­va­vat da­ta­mas­sat voi­vat jät­tää tie­to­ko­neet jäl­keen­sä ja ai­heut­taa ener­gia­krii­sin

Yksityisyyttä suojaavan ja turvallisen datatieteen apulaisprofessori Nikolaj Tatti: Da­ta­tie­de voi pian pal­jas­taa va­le­uu­ti­sia



Koneoppimisen ja tekoälyn apulaisprofessori Antti Honkela: Si­nul­la­kin on sa­lai­suuk­sia - ko­neop­pi­mi­sen pi­tää kun­nioit­taa yk­si­tyi­syy­den suo­jaa

Koneoppimisen ja tekoälyn apulaisprofessori Dorota Głowacka: Tu­le­vai­suu­den ha­ku­ko­ne auttaa käyt­tä­jää löy­tä­mään myös sel­lai­sen tie­don, jota tämä ei tie­dä et­si­vän­sä