Helsingin yliopistossa toukokuussa jo kolmatta kertaa järjestetyssä Helsinki Digital Humanities Hackathon -tapahtumassa ratkottiin humanistien ja yhteiskuntatieteilijöiden tutkimuskysymyksiä tietojenkäsittelyn keinoin. Hackathonin ideana on, että pienryhmät kokoontuvat lyhyeksi aikaa intensiivisesti yhteen analysoimaan aineistoja, asettamaan tutkimuskysymyksiä ja etsimään ratkaisuja. Nyt ryhmiä oli kaikkiaan viisi, ja mukana olevat opiskelijat saivat jakautua ryhmiin omien kiinnostuksenkohteidensa mukaan.
Helsinki in Geotagged Social Media -ryhmä sai eteensä valtavan Helsinki-aiheisen some-aineiston, jota tutkijat olivat jo pyöritelleet aikaisemmissa tutkimuksissaan. Valittavana oli Helsinkiin paikkamerkittyjä somepostauksia vuosilta 2014–2018: 1,3 miljoonaa Instagram-postausta, 61 000 Twitter-postausta ja lähes 130 000 Flickr-postausta.
Ryhmän ohjaajat, englannin kielen ja digitaalisten ihmistieteiden apulaisprofessori Tuomo Hiippala ja geoinformatiikan apulaisprofessori Tuuli Toivonen ovat tottuneet käsittelemään valtavia someaineistoja. He ovat käyttäneet paikkamerkittyjen somepäivityksien analyysia apuna esimerkiksi kansallispuistojen kävijämäärien selvittämisessä.
– Tällaisen valtavan some-aineiston analysointi onnistuu parhaiten, kun kasassa on monitieteinen porukka, Tuomo Hiippala sanoo.
– Työssä tarvitaan esimerkiksi geoinformatiikkaa, ihmismaantiedettä, kieliteknologiaa, koneoppimista, viestintää, kielitiedettä ja kaupunkitutkimusta. Myös tutkimusetiikka tulee väistämättä vastaan, kun on kyse ihmisten tuottamasta sisällöstä ja heidän henkilökohtaisista tiedoistaan.
Helsingin yliopistossa englantilaista filologiaa opiskeleva Saara Suominen oli porukan ainoa humanisti. Intialaisen vaihto-opiskelijan Qazi Firasin pohjatiedot olivat arkkitehtuurissa, mutta hän otti haltuunsa myös karttojen piirtämiseen tarvittavat ohjelmat. Datapuolen hallitsivat Venäjältä ITMO-yliopistosta hackathoniin saapuneet Anton Matveev ja Iuliia Kim sekä Aalto-yliopiston tohtoriopiskelija Sid Rao.
Instagram-postauksissa on tunnetta, siksi ne ovat hyvä kohde sävyanalyysille
Työ lähti liikkeelle siitä, että ryhmällä oli edessään tietokoneruuduilla kartta, jossa oli merkattuna täplällä jokainen Helsinkiin paikkamerkitty Instagram-postaus, ja kaikki kuviin liittyvät tekstipäivitykset valtavassa taulukkomuotoisessa tietokannassa. Taulukossa oli jokaisen tekstin lisäksi tarkat tiedot siitä, missä ja milloin päivitys oli tehty ja kuka päivityksen oli tehnyt.
Tästä lähdettiin liikkeelle. Kartta näyttää Helsinkiin vuosina 2014–2016 paikkamerkityt Instagram-postaukset. Jokainen punainen piste kartalla vastaa yhtä Instagram-postausta.
Ryhmä päätyi rajaamaan alkuperäistä valtavaa aineistoa niin, että käsittelyyn otettiin hieman alle 200 000 Helsinkiin paikkamerkittyä, englanniksi tehtyä Instagram-julkaisua vuosilta 2014–2016.
Porukka analysoi aineistosta Instagram-julkaisujen kieltä, siis tekstejä ja aihetunnisteita, joita päivittäjät ovat liittäneet kuviinsa. Myös emojit pääsivät mukaan analyysiin.
Opiskelijat päättivät tehdä aineistolle sävyanalyysin ja selvittää sen avulla, miten mielialat vaihtelevat eri puolilla Helsinkiä. Instagram-postaukset houkuttelivat juuri tällaisten kysymyksien selvittämiseen, koska niissä on tyypillisesti paljon tunnetta mukana. Aineistossa olisi ollut tarjolla myös Twitter- ja Flickr-postauksia. Twitter painottuu kuitenkin vahvasti julkiseen keskusteluun, ja Flickriä suosivat erityisesti valokuvauksen harrastajat ja ammattilaiset.
– Instagramin kautta jaetaan omia kokemuksia, ja siksi se tarjoaa parhaan näkökulman käyttäjien toimintaan ja ajatteluun, Tuomo Hiippala toteaa.
Alussa ryhmä mietti, miten analyysiin vaikuttaa se, että Instagram-kuvat ovat kaiken kaikkiaan luonteeltaan hyvin iloisia, ja positiivisuus on niissä vahvasti esillä.
Aineiston tarkempi tarkastelu kuitenkin osoitti, että myös synkempiä sävyjä löytyy.
– Meistä alkoikin tuntua mielekkäältä etsiä paitsi Helsingin iloisinta myös synkintä paikkaa, Qazi Firas kertoi hackathon-tapahtuman puolivälissä.
Tunnejaosta tuli karkea, sillä käytössä olleelle tekoälyalgoritmille tunneanalyysi tarkoitti postausten jakoa kolmeen kategoriaan: positiivinen, negatiivinen ja neutraali. Todellisuudessa ihmisen tunneskaala on tietenkin paljon laajempi, ja se heijastuu myös somepostauksiin.
Eniten postauksia talvella, paras tunnelma kesän lopussa ja joululomilla
Hackathon-tapahtuman puolivälissä ryhmän tutkimuskysymykset olivat saaneet selkeän muodon: Helsingin yhden kaikkein onnellisimman paikan löytämisen sijaan ryhmä päätti selvittää, miten mielialat jakautuvat pääkapungissa kaupunginosittain asteikolla positiivinen / neutraali / negatiivinen. Toinen selvitettävä kysymys oli, mikä on vuodenaikojen vaikutus postausten määrään ja mielialoihin.
Ja jo muutaman päivän kuluttua tutkimuskysymysten rajauksesta ryhmä oli valmis esittelemään tuloksensa hackathonin päätöstilaisuudessa.
Aineistosta oli saatu selville ensinnäkin se, että Helsingissä tehdään eniten Instagram-postauksia talvella ja että positiivisimmat tunnelmat ovat päivityksien perusteella kesän lopussa ja joululomalla.
Tulos yllätti ryhmän. Äkkiseltään voisi ajatella, että iloisimmat päivitykset tehtäisiin kesällä, kun on hyvä ilma ja valoisaa. Mutta pimeimpään aikaan räntäsateessakin voi syntyä iloista tunnelmaa:
– Monet Helsinkiin paikkamerkityt kuvat on otettu sisätiloissa, Tuomo Hiippala toteaa.
Iloisen tekstin saanut kuva voi olla otettu esimerkiksi pikkujouluissa kuohuviinilasien, kaveriporukan ja kynttiläntuikkeen keskellä. Ja toisaalta suomalaiset osaavat epäilemättä tehdä myös melankoliasta taidetta – ehkä joku haluaa viestittää onneaan kuvalla, jossa tunnelmoi yksin hiljaisilla, pimeillä kaduilla.
Näin instailoisuus jakautuu Helsingissä kaupunginosittain
Ja sitten ne onnellisimmat ja synkimmät paikat. Tältä Helsingissä näyttää ryhmän tulosten perusteella kaupunginosittain:
Kartassa on esitetty vallitsevat mielialat Instagram-postauksien perusteella Helsingissä kaupunginosittain. Punainen merkitsee negatiivista, keltainen neutraalia ja vihreä positiivista mielialaa.
Sen analysointi, miksi tulokset näyttävät juuri tältä, oli ryhmälle hankalaa: vain Saara Suominen tunsi Helsinkiä hyvin täällä pitkään asuneena. Muut olivat ulkomailta, esimerkiksi vaihto-opiskelijoina tai vierailemassa Helsingissä juuri hackathon-tapahtumaa varten.
Etu-Töölön, Kampin, Kallion ja Kalasataman alueet erottuvat kartassa negatiivisen tunneilmaston alueina, kun taas monet pohjois- ja itä-Helsingin alueet ovat mielialoiltaan positiivisia tai neutraaleja.
Sid Rao kuvaa ryhmän pohdintoja kattavasti blogipostauksessaan.
Ryhmä ei päässyt suoraan näkemään, mikä kuva oli yhdistettynä mihinkin tekstiin. He tekivät kuitenkin manuaalisesti muutamia tsekkauksia kuvista, jotka oli postausten perusteella analysoitu negatiiviseksi. Näissä tarkastelluissa kuvissa ei itsessään ollut mitään negatiivista. Viini-illallisen yhteydessä kerrottiin kuitenkin ”yksinäisestä menneisyydestä”, maisemakuvassa rikkoutuneesta pyöränkumista ja sitruunateen yhteydessä ”iloisesta krapulasta”.
Mille alueille tägätään eniten Helsingissä? Helsingin ydinkeskusta on aineistossa yliedustettuna. Se johtuu arvatenkin siitä, että valtaosa turisteista liikkuu ja kuvaa vain tällä suppealla alueella ja toisaalta jos kuvaan on tehty ainoastaan paikkamerkintä ”Helsinki” eikä esimerkiksi kaupunginosan merkintää kuten ”Töölö” tai ”Vuosaari”, sijoittuu päivitys aineistossa ydinkeskustaan.
Monitieteinen ryhmä yltää ällistyttäviin saavutuksiin
Kesti aikansa, että monitieteinen ja kansainvälinen joukko löysi yhteisen sävelen, mutta kokemukset olivat kaiken kaikkiaan hyvät.
– Kaikkein tärkeintä hackathonissa onkin ollut juuri se, että opimme kommunikoimaan monitieteisissä ryhmissä, Saara Suominen totesi tapahtuman puolivälissä.
– Olen huomannut, että tyypillisesti humanisteilla on kysymyksiä ja luonnontieteilijöillä metodeja.
Tuomo Hiippala oli vaikuttunut ryhmän työotteesta.
Ryhmässä oli jo lähtötilanteessa monenlaista osaamista, ja moni ryhmäläinen taipui ällistyttäviin suorituksiin, kun tarvittiin tietynlaista osaamista: uusia asioita opeteltiin lennosta – esimerkiksi analyysissa tarvittavien ohjelmistojen käyttö. Geoinformatiikan kiemuroissa ryhmä sai apua maantieteen maisteriopiskelija Elias Willbergiltä.
Kiinnostavat tulokset Helsingin Instagram-postausten tunneskaalasta tulivat ikään kuin kaupan päällisiksi monitieteisen ryhmätyöskentelyn ja uusien taitojen oppimisen sivutuotteena.
Ryhmän työ herätti myös uusia tutkimuskysymyksiä, joihin tutkijat voivat jatkossa perehtyä.
Syksyllä onkin alkamassa Tuomo Hiippalan ohjaama tutkimus, jossa tarkastellaan pääkaupunkiseudun somepostausten kielimaisemaa ja erilaisia käyttäjäryhmiä: Mitä kieliä sosiaalisessa mediassa käytetään? Miten eri kieliryhmät liikkuvat ajassa ja tilassa? Mitkä kieliryhmät ovat mahdollisesti vuorovaikutuksessa toistensa kanssa?
Tuomo Hiippala on jo tehnyt muutamia Instagramin kielimaisemaan liittyviä tutkimuksia. Hiljattain hän otti käsittelyyn vuosina 2013–2018 tehdyt Instagram-aineiston postaukset, jotka oli paikkamerkitty 150 metrin säteelle Senaatintorista. Valtaosa postauksista oli tehty englanniksi, ja lähempi tarkastelu osoitti, että puolet suomalaisista Instagramin käyttäjistä kirjoittaa englanniksi tai sekoittaa eri kieliä, tyypillisimmin suomea ja englantia.