Digitaalisten menetelmien pitää olla teoreettisesti motivoituja

Kielitypologi Kaius Sinnemäki tutkii tilastomenetelmin Open Access -tietokantojen ja kielikatalogien avulla sitä, miten substantiivien sijan ja suvun merkintätavat voivat olla keskinäisessä vuorovaikutuksessa ja millaisia universaaleja näistä vuorovaikutuksista löytyy.

Suomen kielessä sukua ei merkitä. Indoeurooppalaisissa kielissä merkittyjä sukuja on kaksi tai kolme, mutta monissa Afrikassa puhuttavissa kielissä viisi tai jopa enemmän. Iso osa maailman kielistä on kuitenkin samanlaisia kuin suomi – sukua ei merkitä.

Tällaisia kielitypologisia piirteitä tutkii Suomen Akatemian tutkijatohtori Kaius Sinnemäki.

– Tutkin kielen universaaleja, sitä millaisia yhteisiä tendenssejä maailman kielistä löytyy. Yksi sellainen piirre on juuri suvun merkintä ja siihen läheisessä suhteessa olevat substantiivien klassifikaattorit, joita löytyy muun muassa useista Kaakkois-Aasian ja Etelä-Amerikan kielistä. Tarkoitus on tehdä yleistyksiä, joskus kymmenien, joskus satojen kielten perusteella. Tällaista humanistista tutkimusta tehdään tietokoneella, ei kenttätöissä. Menetelmät löytyvät tilastotieteestä.

Tietokannat ja kielikatalogit

Kun tutkijan kiinnostuksen kohteena ovat periaatteessa kaikki maailman tuhannet kielet, on helppo ymmärtää että erilaiset digitaaliset Open Access -tietokannat ja kielikatalogit ovat tutkijalle korvaamaton apu.

– Hyvin tärkeä lähde kielitypologille on The World Atlas of Language Structures (WALS). Se on ollut verkossa vuodesta 2008. Sinne on koottu tietoa yli 2600 kielestä. Noin 200 kielen ydinjoukosta on mukana vajaat 200 piirrettä, muista vähemmän, mutta kaikista tietokannan kielistä jotakin. Tietokannan avulla pääsee kaivamaan monenlaista tietoa ja sieltä myös näkee, mitä lähteitä on käytetty, Kaius Sinnemäki kertoo.

– Kielikatalogeista, kuten Glottolog ja Ethnologue, taas löytyy valtavasti metatietoa kielistä: missä kieltä puhutaan ja mikä on sen genealogia eli tietoa vaikkapa lähisukukielistä. Myös täältä löytyvät lähteet ja usein jopa linkki suoraan alkuperäislähteeseen, jos se löytyy verkosta. Joskus on kuitenkin edelleen lähdettävä kirjastoon, jos haluaa saada lähteen käsiinsä.

Aivan ongelmatonta kielten vertailu ei näiden digitaalisten aineistojenkaan avulla ole, sillä kielillä saattaa olla eri nimet ja koodit eri tietokannoissa. Eikä kielen ja murteen erottamistakaan tehdä aina samoilla kriteereillä.

– Myös rinnakkaistekstit, siis sama teksti käännettynä eri kielille,  ovat kasvava aineistolähde kielitypologeille. Esimerkiksi Uuden Testamentin käännös on saatavilla yli 1000 kielellä, Sinnemäki lisää.

Tilastomenetelmät haltuun

Kun Kaius Sinnemäki aloitteli yleisen kielitieteen väitöskirjatutkimustaan, hänen tilastotieteen tietonsa ja taitonsa olivat vapaaehtoisiin opintoihin kuuluneen tilastotieteen peruskurssin tasoa. Ne tiedot eivät vieneet pitkällekään, kun jatko-opiskelijan piti tehdä tieteellisesti pätevä, mahdollisimman paljon toisistaan riippumattomien kielten otanta.

– Käytin noin vuoden siihen että opiskelin tilastollisia menetelmiä, tietokantojen muokkaamista ja tilastomenetelmiä. Lähinnä opiskelin itsekseni kirjoista ja netistä. Ohjaajistani oli kyllä suuri apu siinä vaiheessa. Moninaisten vaiheiden ja erehdysten kautta tuli voitto, sillä menetelmäosaamisesta tuli vahvuuteni. Siihen käytetty aika ei tosiaankaan mennyt hukkaan.

– Nykyään opetankin esimerkiksi R-ohjelmointiympäristön käyttöä. Se sopii aineiston manipulointiin ja tilastotesteihin loistavasti.

Viittomakielen universaalit

Uusimpaan kielitypologiseen tutkimusprojektiinsa Kaius Sinnemäki ottaa mukaan viittomakielet.

– Kielitypologisissa tutkimuksissa ei juuri koskaan ole mukana viittomakieliä. Tällöin on kuitenkin mahdollista, että ”universaaleina” pitämämme kielen tendenssit ovat enemmänkin puhutun kielen kuin kielen ominaisuus yleensä. Tämän kysymyksen ratkaisussa viittomakielten rooli on keskeinen.

Viittomakielen tutkimus on lisääntynyt viimeisten 15 vuoden aikana, ja esimerkiksi Jyväskylän yliopistossa on tehty kieliteknologisia analyysejä viittomakielestä. Yhteistyössä muun muassa Jyväskylän tutkijoiden kanssa Sinnemäen tutkimusprojektin on tarkoitus tuottaa myös tietokanta-aineistoa puhe- ja viittomakielistä, ja se tulee aikanaan avoimesti saatavaksi.

– Kaikkien digitaalisten aineistojen ja menetelmien keskellä on muistettava, että tutkimuksen johtotähtenä pitää olla jokin teoreettisesti motivoitu kysymys. Tässä tutkimuksessa omat kysymykseni nousevat kielitypologian perinteestä ja väitteistä, joita ei ole aiemmin kyetty selvittämään laajojen kieliaineistojen avulla.