Kuvittele maailma, jossa teknologian avulla voidaan seurata, mitä ihmiset ajattelevat, toivovat ja pelkäävät. Tietyn alueen tai vaikka kokonaisen valtion mielenliikkeistä piirtyy näkymä, jota voidaan tulkita hieman kuin sääkarttaa: Mistä suomalaiset puhuvat juuri nyt? Missä päin maata ihmiset ovat onnellisimpia? Kuka poliitikko on vahvoilla tulevissa vaaleissa ja miksi?
Jotta tällaiseen skenaarioon päästään, tarvitaan teknologian ja osaamisen lisäksi paikka, josta havaintoja tehdään. Sellainen paikka on jo olemassa: sosiaalinen media, ja yksi somen lupaavimmista alustoista Suomessa on Suomi24-keskustelufoorumi.
Monelle Suomi24 edustaa foorumia, jossa juoruillaan naapureista, arvostellaan julkkiksia ja harrastetaan vihapuhetta. Tutkijoille Suomi24 on puolestaan aarreaitta, jossa on 1,7 miljoonaa rekisteröitynyttä käyttäjää ja yli 70 miljoonaa viestiä kymmenen vuoden ajalta. Nämä viestit ovat meistä kertovia signaaleja, joista etsitään vastauksia monen eri tieteenalan kysymyksiin.
– Tutkimusympäristönä Suomi24 on täysin poikkeuksellinen, koska se on niin laaja ja tarjoaa näkymän pitkälle historiaan. Todennäköisesti vain huippuyliopisto MIT:llä yksinoikeudella käytössään oleva Twitter-aineisto on parempi, sanoo Helsingin yliopiston Kuluttajatutkimuskeskuksen tutkija Salla-Maaria Laaksonen.
Laaksonen on yksi monista tutkijoista, joka on tutkinut Aller Median vuonna 2015 tutkimukseen avattuja Suomi24-aineistoja. Futuristisilta kuulostavien mahdollisuuksien lisäksi some-aineistoihin liittyy monia tutkimuseettisiä haasteita, joissa tasapainotellaan avoimen tieteen ja esimerkiksi yksityisyydensuojan välillä.
Koneäly oppii vihapuhetta somen avulla
Toistaiseksi Suomi24:n, tai minkään muunkaan alustan avulla, ei ole mahdollista luoda karttaa kansalaisten mielenliikkeistä Minority Report -tyylisistä tieteiselokuvista tutulla tavalla. Sosiaalisesta mediasta löytyy kuitenkin jo nyt vastauksia kysymyksiin, joihin kiinni pääsy oli aiemmin tutkijoiden ulottumattomissa.
– Some-datan avulla on ennustettu esimerkiksi kasvisruokabuumia, poliitikkojen menestymistä vaaleissa ja flunssa-aaltojen leviämistä. Ennusteita on tosin usein vaikea toistaa, Laaksonen kertoo.
Laaksonen on tutkinut muun muassa somen käyttöä vuoden 2015 eduskuntavaalien aikana ja oli mukana projektissa, jossa koneäly opetettiin tunnistamaan vihapuhetta someaineistoista kevään 2017 kuntavaalien aikana.
– Vuoden 2015 Digivaalit-hankkeessa rakensimme vaikuttajaindeksiä, joka kertoi, voivatko ehdokkaat vaikuttaa somessa siihen, mitä perinteisessä mediassa puhutaan. Esiin nousi poliitikkoja, kuten Ville Niinistö, jotka onnistuivat ennakoimaan perinteisen median aiheita tai nostamaan omia aiheitaan keskusteluun.
Laaksonen on myös jäsen Citizen Mindscapes -tutkijakollektiivissa, jossa selvitetään kansalaisten mielenliikkeitä isojen verkkoaineistojen, kuten Suomi24:n, avulla.
– Suomi24-aineistosta on selvinnyt esimerkiksi se, että huolipuhe lisääntyy öisin ja että suurimmat huolet liittyvät omaan terveyteen. Öisin myös kiroillaan eniten, Laaksonen naurahtaa.
Some-kohut tuhoavat tutkimusmahdollisuuksia
Some-aineistojen käyttö tieteellisessä tutkimuksessa on vasta lapsenkengissään, mutta voi olla, että historiallisen laajat aineistot kuihtuvat ennen kuin niistä ehditään edes saada kaikki potentiaali irti. Viimeaikojen kohut ja tietovuodot esimerkiksi Facebookin ympärillä ovat saaneet niin palveluntarjoajan kuin käyttäjätkin varuilleen.
– Tekniseltä näkökantilta tilanne on huonontunut, koska ohjelmointirajapintoja suljetaan. Toisaalta käyttäjien kannalta se on ihan hyvä asia, kun miettii Cambridge Analytica -tapausta, Laaksonen sanoo. Hän viittaa brexitiin ja Yhdysvaltain presidentti Donald Trumpin vaalivoittoon, joissa Cambridge Analytica -yrityksen koneälypohjainen propaganda vaikutti somen kautta vaalituloksiin.
Cambridge Analytica -kohun jälkeen Facebook teki isoja muutoksia ohjelmointirajapintaansa ja esti tutkijoiden pääsyn suureen osaan saatavilla olevasta tiedosta. Aiemmin vaikkapa graduntekijä pystyi hyödyntämään tietoa Facebookin julkisista ryhmistä ja niiden jäsenistä. Nyt tietoa saavat lähinnä nimekkäät tutkijat, joiden tutkimusehdotukset menestyvät Facebookin rahoituskilpailussa. Tutkijat ovat kritisoineet muutosta epädemokraattiseksi ja tutkimukselle tuhoisaksi.
– Myös Twitteriin on tulossa muutoksia tiedonsaannissa. Jatkossa sinne pitää rekisteröityä ohjelmistokehittäjäksi ja tehdä hakemus, jossa kertoo, mitä tutkimusta on tekemässä ja mitä tiedolla aikoo tehdä, Laaksonen lisää.
Tutkimuksessa on huomioitava tietoturva ja yksityisyyden suoja
Kuinka turvassa tietomme sitten ovat suuryritysten mutta myös tutkijoiden käsissä? Laaksonen rauhoittelee: oli data millaista tahansa, tutkijan pitää osata käyttää sitä eettisesti.
– Some-data on henkilödataa, ja siksi sitä on käsiteltävä samalla tavalla kuin kaikkea muutakin henkilödataa. Tutkijan pitää osata ajatella, mitä seurauksia aineiston käsittelystä voi seurata henkilölle, jota se koskee.
– Henkilödataa käsitellessä pitää noudattaa GDPR:ää eli EU:n uutta tietosuoja-asetusta. Rahoitusta hakiessa vaikkapa Suomen Akatemialta pitää olla datanhallintasuunnitelma, josta selviää esimerkiksi millaista dataa kerää, miten sitä säilyttää, käyttää ja mitä datalla tekee tutkimuksen jälkeen, Laaksonen jatkaa.
Tutkimustiedosta voi syntyä harmia silloinkin, kun se näyttää olevan näennäisen anonyymia. Tämän takia esimerkiksi Laaksosen edellä mainitun vihapuhehankkeen raakadataa ei voi julkaista.
– Jos julkaisisimme vihapuhedataa, jolla koneälyä opetettiin, joku saattaisi etsiä sen avulla alkuperäisten viestien kirjoittajat, Laaksonen sanoo.
Vaikka tieteen avoimuus on lähtökohta useille tutkijoille, kuten Laaksoselle, tällaiset skenaariot pakottavat rajoittamaan tiedon jakamista.
Tutkimusmielikuvitus on some-tutkijan tärkein ominaisuus
Humanistien ja yhteiskuntatieteilijöiden haave on jo satoja vuosia ollut tuoda omiin tieteenaloihinsa samanlaista tarkkuutta ja selitysvoimaa, joista toistaiseksi nauttivat vain matematiikka ja luonnontieteet. Taloustieteessä on ollut eniten yritystä, mutta kun muuttujana ovat ihmisten ajatukset ja niiden ilmaisu, eivät edes parhaat oletukset käyttäytymisestämme vastaa usein todellisuutta.
Somen ja big datan aikakaudella jotkut, kuten MIT Media Labin datatieteilijä Alex Pentland, ovat alkaneet puhua sosiaalifysiikasta: kun sosiaalisesta ympäristöstä on miljoonia ja jopa miljardeja havaintoja, saadaan siitä uudenlainen ja aiempaa paljon tarkempi käsitys.
Pentland on itse ollut mukana kirjoittamassa tutkimusartikkelia, joka vie ajatukset Minority Report -elokuvan maailmaan, jossa rikokset voidaan ehkäistä ennen kuin ne tapahtuvat, koska tietoa ihmisistä on niin paljon. Tutkimuksessaan Pentland ja hänen kollegansa tutkivat, voidaanko tulevan rikoksen paikka Lontoossa ennustaa käyttämällä väestötietoja sekä mobiiliverkosta saatua aggregoitua ja anonyymia käyttäytymisdataa. Tutkijat toteavat kylmäävästi, että heidän kokeissaan oikea rikospaikka Lontoossa voitiin ennustaa 70 prosentin tarkkuudella.
Nähtäväksi jää, mikä merkitys sosiaalifysiikalla ja uusilla tutkimusmenetelmillä on. Paljon riippuu Laaksosen mukaan ”tutkimusmielikuvituksesta”, joka voi viedä tutkijan hyvinkin erikoisille tutkimuspoluille, kuten kävi vaikkapa Pentlandille ja hänen kollegoilleen.
– Pentlandin ja kumppaneiden tutkimus on oiva esimerkki siitä, että tutkijoilla on myös eettistä vastuuta tulevaisuuskuvien luojina vähän vastaavaan tapaan kuin tieteiskirjallisuuden kirjoittajilla. Isojen aineistojen kanssa täytyy siis miettiä paitsi sitä mitä voisi tehdä, myös sitä, minkä tekeminen on oikein, Laaksonen sanoo.