Meistä jokaisen arkea koskevia päätöksiä tehdään tilastojen perusteella. Tällä hetkellä julkisuudessa keskustellaan esimerkiksi siitä, kuinka Facebook, Google ja uutistoimistot tarjoavat lukijoilleen uutisia ja muita sisältöjä sen perusteella, mitä verkossa on aiemmin lukenut, selannut tai avannut.
– Jatkossa näidenkin taustalla toimivat tilastolliset mallit on voitu toteuttaa todennäköisyysohjelmoinnilla, kun ne nyt tehdään pitkälti käsityönä niin, että jokaista mallia on varten on oma tietokoneohjelmansa, kertoo todennäköisyysohjelmointia tutkiva akatemiatutkija Arto Klami.
Iso data syntyy ykkösistä ja nollista
Teollisen internetin aikana puhutaan siis paljon laskemisesta ja tilastoista, isoista massoista dataa, jota käsitellään ykkösinä ja nollina. Sekä sattumasta, satunnaisilmiöistä. Joista jotkut sattumat ovat suorastaan virheitä, harmillista kohinaa muuten hyvässä aineistossa.
Koska datan avulla, uuden tiedon avulla, ennustamme tulevaa ja myös selitämme mennyttä, on tärkeää, että ihmisen ja laitteiden keräämä aineisto vastaa todellisuutta, ja että mallit ja niiden perusteella tehdyt päätelmät ovat luotettavia – myös silloin kun aineistot ovat kohinaisia.
Mullistamassa tilastollista mallinnusta
Tilastollisella mallintamisella tarkoitetaan satunnaisilmiön mallintamista. Tilastollisten mallien kehittäminen on matemaattisesti haastavaa ja vaatii tyypillisesti tohtoritason osaamista ja joskus kuukausien työpanosta, Arto Klami sanoo.
– Kovasta työstä huolimatta malleissa joudutaan vieläkin tekemään valintoja ihan sen perusteella, mikä on helppo laskea.
Todennäköisyysohjelmointi pyrkii helpottamaan näitä vaikeuksia.
Se erottaa mallin kuvaamisen ja sillä tehtävän päättelyn. Silloin matematiikkaan perustuva päättely tehdään automaattisesti mallista riippumatta, ja sovellusalan osaaja, vaikkapa biologi tai psykologi voi keskittyä kuvaamaan mallinnettavan asian ilmiöitä.
Todennäköisyysohjelmointi keventää tilastojen mallintamista
Tilastollinen mallinnus halutaan demokratisoida siinä kuin ohjelmoinnistakin on tehty helpompaa.
Tulevaisuudessa jokaisen tutkijan tai suunnittelijan ei tarvitse osata matematiikkaa tai tilastotiedettä syvällisesti, ja silti hän voi hyödyntää tilastoja – opettelevathan lapsetkin jo koulussa ohjelmointia.
Tutkija kertoo saman näin:
– Aikoinaan tietokone-ohjelmia kirjoitettiin suoraan konekielellä, mutta nykyisin ne kirjoitetaan korkean tason ohjelmointikielillä, sellaisilla kuin esimerkiksi Java, jotka sitten käännetään konekielelle itse suoritusta varten. Ohjelmoijan ei siis enää tarvitse opiskella konekieltä. Todennäköisyysohjelmointi pyrkii tekemään samanlaisen muutoksen tilastollisten mallien kehittämiselle.
Aineistoista saa todennäköisyysohjelmoinnilla tarkkoja havaintoja
Viime vuosina todennäköisyysohjelmoinnin työkaluja on syntynyt useita. Stan on niistä monipuolisin, ja sen avulla voi kuvata malleja, joiden päättelyyn on tarjolla kehittyneitä algoritmeja.
– Uudet työkalut ovat mullistamassa tilastollisen mallinnuksen käytäntöjä, ja niitä käytetään jo opetuksessa, tilastollisia menetelmiä soveltavissa tieteissä sekä yritysmaailmassa, Arto Klami sanoo.
Hänellä on esimerkki kasvatus- ja sosiaalitieteistä:
– Loppuvuodesta uutisoitiin aktiivisuusrannekkeista, joita oli annettu päiväkotilapsille. Niiden avulla nimittäin havaittiin, että lasten liikuntatottumukset vaihtelevan kovasti. Juuri tällaisia ilmiöitä todennäköisyysohjelmoinnin avulla voidaan tutkia joustavammin kuin perinteisillä tilastollisilla testeillä. Todennäköisyysohjelmointi näyttää nopeasti syyt, selitykset ja tarkat havainnollistukset aineistosta.
Kohtuuajassa laskennallisesti tehokkaita malleja luotettavia päätelmiä varten
– Lähivuosina kehitystyö kohdistuu siihen, kuinka entistä isompi joukko malleja voidaan saada laskennallisesti tehokkaaksi niin, että luotettavia päätelmiä saadaan tehtyä myös mielekkäässä ajassa, tutkija Arto Klami kertoo.
Kun mielekästä aikaa tutkijalta kysyy, hän sanoo, että joskus tarvitaan millisekuntien vastetta, esimerkiksi kun päätellään jotakin käyttäjän vasta klikattua jotain linkkiä. Välillä taas hyväksytään viikkojenkin laskenta-aika supertietokoneilla, vaikkapa silloin, kun tutkitaan ihmisen genomia.
***
Helsingin yliopiston tiedeteema urbaani tulevaisuus alkaa keskiviikkona 8.2.2017 Aikakone-tilaisuudella, jossa myös Arto Klami on puhumassa. Tervetuloa!
Arto Klami työskentelee akatemiatutkijana matemaattis-luonnontieteellisessä tiedekunnassa. Vapaa-aikanaan hän pelaa lautapelejä. Lue lisää Arto Klamista ja seuraa keskustelua tekoälystä myös täältä.
Jälkikirjoitus matemaattisesta tilastollisesta mallista: Se voidaan esittää parina Y, P. Siinä Y on havaintojen joukko ja P on Y:hyn liittyvien todennäköisyysjakaumien joukko. Tilastollinen malli mahdollistaa tilastollisen päättelyn, jonka avulla voidaan päätellä kuinka hyvin malli kuvaa tiettyä satunnaisilmiötä.