Kuka olet?
Olen Jack Rueter. Johdan tutkimushanketta digitaalisissa ihmistieteissä Helsingin yliopistolla ja toimin projektitutkijana suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa Turun yliopistolla. Tutkin joko käsin tai sääntöpohjaisilla järjestelmillä annotoitujen korpusten kontekstipohjaista disambiguointia, jolla tarkoitetaan tekstin sisältämien moniselitteisten muotojen ja ilmausten tulkintojen etsimistä. Siitä asti kun 17-vuotiaana lausuin ensimmäiset suomenkieliset sanani, olen pyrkinyt opettelemaan useita muitakin kieliä ja saavuttamaan niissä käytännön kielitaidon.
Mikä on tutkimuksesi aihe?
Opiskeluajoistani asti olen tehnyt tutkimusta uralilaisten ja muiden vähemmistökielten parissa ja asteittain syventänyt ymmärrystäni siitä, kuinka kieliteknologisia työkaluja ja käytäntöjä voitaisiin hyödyntää kielitieteellisessä perustutkimuksessa. Tein ensimmäisen komi-syrjäänin äärellistilaisen kuvauksen jo neljännesvuosisata sitten ja jatkoin ersän kielen aineistojen parissa 2000-luvun alussa. Kunnianhimoista yhteistyötä on kuitenkin uralilaiseen kielikuntaan kuuluvien kielten kuvauksessa tehty vasta kymmenen viime vuoden aikana. Näissä kuvauksissa on keskitytty sanaston, syntaksin sekä rikkaan mutta säännöllisen morfologian tutkimiseen. Lisäksi keskiössä on ollut ajatus siitä, että monikielisten työkalujen ja oppimisympäristöjen kehittäminen voisi edistää myös kielten dokumentointia.
Työni komi-syrjäänin kielen parissa alkoi 1990-luvun alkupuolella, kun istuin luentokurssilla Helsingin yliopistolla. Opettajamme E. Cypanov tarjosi meille oppitunteja, jotka pohjautuivat hänen kirjoittamiinsa venäjänkielisiin materiaaleihin. Komi–suomi- tai komi–englanti-sanakirjoja ei tuolloin ollut saatavilla. Niinpä ryhdyin kääntämään hänen sanastoaan lyhyeksi kolmikieliseksi komi–englanti–suomi-sanalistaksi, jonka sittemmin oikoluin ja laajensin Alfred Kordelinin säätiöltä saamani apurahan turvin. Sanalistat olivat tuolloin olennaisia etappeja äärellistilaisten kuvausten kehitystyössä. Vuonna 1995 pääsinkin Unix-järjestelmällä aloittamaan komi-syrjäänin mallintamisen professori Kimmo Koskenniemen opastamana.
Vuodesta 1996 aina vuoteen 2004 saakka vietin suuren osan ajastani komien, ersäläisten ja mokšalaisten keskuudessa. Opetin suomen kieltä Mordvan valtionyliopistossa Saranskissa, Mordvassa, joka sijaitsee noin 600 km Moskovasta itään. Kielenopetuksen lisäksi ryhdyin keräämään ja digitoimaan mordvankielistä kirjallisuutta. Samalla opin molemmat kirjakielet ja verkostoiduin niin ammattikielenkäyttäjien kuin natiivipuhujien kanssa. Henkilökohtaisilta tuttaviltani sain näistä kielistä lisää tietoa ja äidinkielisiä kuvauksia, jotka muodostivat pohjan kielten asianmukaiselle dokumentaatiolle. Tähän aikaan tutustuin myös muihin Venäjällä puhuttaviin kieliin sekä loin yhteyksiä Turun ja Tromssan yliopistojen kielentutkimukseen.
Saranskin opetustehtävieni päätyttyä pääsin mukaan Giellatekno-nimisen avoimen lähdekoodin infrastruktuurin työhön Tromssassa. Trond Trosterud kollegoineen oli kiinnostunut työstäni komin kielen parissa ja he halusivat saada sen mukaan Barentsin ja napa-alueen kielten kieliteknologiaa koskevaan kehitystyöhönsä. On sanomattakin selvää, että suostuin tähän ehdotukseen. Niinpä avoimena lähdekoodina julkaistusta komin kielestä tuli uusi palanen laajaan sanakirjoja ja morfologioita koskevaan työhön, johon osallistuin Helsingistä käsin aloittaessani siellä jatko-opintojani. Kieliteknologia vaikutti voimakkaasti myös ersän kielen morfologisten ilmiöiden luokitteluun, jota dokumentoin väitöskirjassani vuonna 2010 ja josta tutkimustyöni vielä myöhemmin huomattavasti laajeni osana Koneen Säätiön rahoittamaa Kieliohjelmaa (2012–2021).
Kieliohjelman aikana tehtiin laajoja pilotteja ja hankkeita, joissa digitoitiin Kansalliskirjaston
Sanastossa tai morfologiassa on järkeä vain, jos niitä voi soveltaa laajemmin – syntaksiin ja merkitysten muodostamiseen, kuten kääntämiseen. Anssi Yli-Jyrän ansiosta tutustuin 2010-luvun lopulla Universal Dependencies -projektiin. Aloitin
Apertium sai alkunsa kääntämisestä katalaanin ja espanjan sekä muiden sukulaiskielten välillä. Sen tekemissä konekäännöksissä huolehdittiin aluksi lähdekielen sanaston muuntamisesta kohdekielelle, jota seurasi morfologisen tiedon siirtäminen ja lopulta syntaksin mukauttaminen kohdekieleen, idiomit huomioiden. Kun läheisiä sukulaiskieliä pystytään kääntämään toistensa välillä tällaisella menetelmällä, voitaisiin menetelmää mahdollisesti hyödyntää myös silloin, kun tarkoituksena olisi mitata kielimuotojen etäisyyttä toisiinsa sen tiedon pohjalta, mitä niistä on dokumentoitu. Esimerkiksi pintamuotojen siirtotyökalujen kehittäminen
Miten Kielipankki liittyy tutkimukseesi?
Viime vuosituhannen lopulla aloin kerätä mokšan-, ersän- ja kominkielistä kirjallisuutta niiden kirjoittajilta ja julkaisijoilta tutkimuskäyttöä varten Helsingin yliopiston korpuspalvelimelle (UHLCS), jolta ne on sittemmin siirretty Kielipankkiin. FIN-CLARIN-infrastruktuuri on käyttänyt aikaa ja resursseja vanhempien UHLCS-aineistojen työstämiseen käyttökelpoisempaan muotoon sekä tarjonnut ohjeistusta uudempien korpusten kehitystyöhön. Sen ansiosta minulla on ollut mahdollisuus siirtää Kielipankin Korp-palvelimelle ersän ja mokšan kielelle tekemäni
Julkaisuja
Rueter, J., Partanen, N., Hämäläinen, M., & Trosterud, T. (2021).
Hämäläinen, M., Rueter, J., & Alnajjar, K. (2021).
Rueter, J., Hämäläinen, M., & Partanen, N. (2020).
Hämäläinen, M., Alnajjar, K., Rueter, J., Lehtinen, M., & Partanen, N. (2021).
Rueter, J., Pereira de Freitas, M. F., Facundes, S., Hämäläinen, M., & Partanen, N. (2021).
Rueter, J. (2020).
Rueter, J. (Author), & Axelson, E. (Author). (2020).
Rueter, J., Partanen, N., & Ponomareva, L. (2020).
Rueter, J. M. (2020).
Rueter, J., Partanen, N., & Pirinen, T. A. (2021).
Rueter, J., & Hämäläinen, M. (2020).
Rueter, J. M. (Accepted/In press). Mordva. In R. Valijärvi & D. Abondolo (Eds.), The Uralic Languages Routledge.