Kolmenkymmenentuhannen käyttäjän ja 38 miljoonan viestin avulla selvitettiin suomalaisten Twitter-käyttäjien kielivalintoja ja maantieteellistä sijaintia

Helsingin yliopiston monitieteinen tutkimusryhmä tarkasteli suomalaisten Twitter-käyttäjien kielivalintoja sekä kielten ja käyttäjien jakautumista Suomen alueella.

Tutkimukseen kerättiin 38 miljoonaa Twitter-viestiä kolmeltakymmeneltätuhannelta käyttäjältä, joista kaksi miljoonaa sisälsi paikkatietoa. Lisäksi tutkijat tarkastelivat kielimaiseman monimuotoisuuden muutosta ajassa ja tilassa. Tutkimuksessa määritettiin myös käyttäjien kotipaikka kunta- ja maakuntatasolla heidän paikkatietohistoriansa perusteella. Käyttäjien kielet tunnistettiin automaattisen kielentunnistuksen avulla. 

Valtakielet ovat suomi ja englanti 

–Kuten arvata saattaa, Twitterin valtakielet Suomessa ovat suomi ja englanti, apulaisprofessori Tuomo Hiippala kertoo.

–Maaseudulla käytetään keskivertoa enemmän suomea ja keskivertoa vähemmän englantia. Muutoin suomi ja englanti jakautuvat melko tasaisesti. 

Hiippalan mukaan Twitter-viestit sisältävät kuitenkin harvemmin paikkatietoa kuin esimerkiksi Instagram-julkaisut. Tutkijoiden havainnot vastaavat pitkälti Suomen kielellisiä realiteetteja ja se kertoo siitä, että kotipaikan- ja kielen tunnistukseen käytetyt algoritmit ovat melko luotettavia. 

–On kuitenkin tärkeää pitää mielessä, ettei Twitterin käyttäjäkunta edusta koko väestöä, Hiippala muistuttaa. –Seuraava luonnollinen askel on tarkastella yksittäisten kielten käyttöä ja niiden sisäistä vaihtelua. Esimerkiksi suomen kielen murteiden esiintyminen Twitterissä olisi mielenkiintoinen tutkimuskohde. 

Väitöskirjatutkija Tuomas Väisäsen mukaan kielten alueellisessa jakaumassa korostuu historiallinen ja maantieteellinen ulottuvuus: ruotsia käytetään keskimääräistä enemmän rannikon ruotsinkielisillä alueilla, kun taas venäjää esiintyy enemmän itärajan tuntumassa. Viron osalta havainnot keskittyvät Etelä-Suomeen. 

–Ajallisesta ja maantieteellisestä näkökulmasta Twitterin digitaalinen kielimaisema havainnollistaa kuinka digitaalinen ja fyysinen maailma kytkeytyvät toisiinsa koko Suomessa paikasta riippumatta, Väisänen toteaa. 

Kielentutkimukselle voi olla hyötyä maantieteellisestä näkökulmasta

Valtaosa suomalaisista Twitter-käyttäjistä käyttää alustalla kuitenkin useampaa kuin yhtä kieltä, mutta kielten suhteelliset osuudet eivät jakaudu tasaisesti. Vain 18 % käyttäjistä käyttää vain yhtä kieltä. 

–Tutkimus osoittaa, että kielentutkimus voi hyötyä maantieteellisestä näkökulmasta, sanoo akatemiatutkija Olle Järv

–Ajallinen tarkastelu puolestaan täydentää tätä maantieteellistä kuvaa osoittamalla kuinka kielellinen monimuotoisuus vaihtelee päivä-, viikko- ja vuosirytmin tahdissa. Twitter-viestit ja muut massadatan lähteet avaavat uusia mahdollisuuksia kielentutkimukselle. 

Yhtä kieltä suosivat käyttäjät paikantuvat keskimääräistä useammin maaseudulle, kun taas useampaa kieltä aktiivisesti käyttävät sijoittuvat rannikolle ja pääkaupunkiseudulle. Rikkaimmillaan kielimaisema on rannikon ruotsinkielisillä alueilla sekä Uudellamaalla. Toisaalta myös kielellisesti köyhimmällä alueella Pohjois-Karjalassa esiintyy 19 kieltä. 

Tutkimus toteutettiin osana pääkaupunkiseudun kielimaisemaa kartoittavaa hanketta, jonka vastuullisena tutkijana toimii Tuomo Hiippala, Helsingin yliopiston humanistisesta tiedekunnasta. Hanketta rahoittaa Emil Aaltosen Säätiö. 

Tutkimusartikkelin muut kirjoittajat ovat Tuomas Väisänen, Tuuli Toivonen ja Olle Järv matemaattis-luonnontieteellisestä tiedekunnasta.  Englanninkielinen tutkimusartikkeli Mapping the languages of Twitter in Finland: richness and diversity in space and time 

Lisätietoja:  

apulaisprofessori Tuomo Hiippala, 050 377 3366, tuomo.hiippala@helsinki.fi, @tuomo_h