Sardana Ivanova väittelee aiheesta Kieliteknologiatyökaluja vähäresurssisille kielille

M.Sc. Sardana Ivanova väittelee lauantaina 23.3.2024 aiheesta Kieliteknologiatyökaluja vähäresurssisille kielille — viisi tapausta sahalle, norjalle ja suomelle. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Computational Creativity and Data Mining -ryhmässä tehtävää tutkimusta.

M.Sc. Sardana Ivanova puollustaa väitöskirjaansa "Language technology tools for low-resource languages—five cases for Sakha, Norwegian, and Finnish" lauantaina 23.3.2024 klo 12 Helsingin yliopiston Porthania-rakennuksen auditoriossa PIII (Yliopistonkatu 3, 1. krs). Vastaväittäjänä toimii professori Veronika Laippala (Turun yliopisto) ja kustoksena professori Hannu Toivonen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Sardana Ivanovan väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Computational Creativity and Data Mining -ryhmässä tehtävää tutkimusta. Väitöskirjatyön ohjaajina ovat toimineet professori Hannu Toivonen (Helsingin yliopisto) ja Senior AI Scientist Mark Granroth-Wilding (Silo AI).

Kieliteknologiatyökaluja vähäresurssisille kielille — viisi tapausta sahalle, norjalle ja suomelle

Tässä väitöskirjassa on kehitetty kieliteknologian työkaluja vähäresurssisille kielille. On tärkeää varmistaa, että vähäresurssiset kielet eivät jää jälkeen nopeasti kehittyvässä digitaalisessa ympäristössä, sillä kieliteknologian työkalut voivat suuresti parantaa viestintää ja tiedon saatavuutta näiden kielten puhujille. Vähäresurssisten kielten tukeminen teknologian kehittämisen ja elvyttämispainotteisten toimien kautta on olennaista kielellisen monimuotoisuuden säilyttämiseksi ja kulttuuriperinnön rikkauden ylläpitämiseksi. 

Väitöskirja esittelee viisi tapaustutkimusta kolmelle kielelle, alkaen todella vähäresurssisesta sahan kielestä edeten resurssirikkaampiin kieliin, suomeen ja norjaan, joilta silti puuttuu monia englannin kielelle saatavilla olevia resursseja. Noin puoli miljoonaa ihmistä puhuu turkkilaisiin kieliin kuuluvaa sahaa Siperiassa. Suomi on uralilainen kieli ja osa itämerensuomalaisten kielten haaraa. Suomea puhuvat noin 5,8 miljoonaa ihmistä Suomessa sekä suomalaiset Suomen ulkopuolella. Norja on pohjoisgermaaninen kieli, jota pääasiassa puhuu noin 5,32 miljoonan ihmistä Norjassa. 

Väitöskirjassa käsitellyt viisi tapausta sisältävät olennaisia työkaluja sahalle, kuten morfologisen analysoijan, sekä korkeamman tason työkaluja norjalle ja suomelle. Väitöskirjassa edistetään viittä eri aihetta. 

Ensinnäkin kehitimme morfologisen analysoijan ja generaattorin sahalle kaksiportaisen morfologian puitteissa. Sen kattavuus on yli 90 % ja tarkkuus 99 %. Analysoijan kehittämisen yhteydessä laajensimme kielitieteellistä tietämystä sahasta ja kehitimme strategioita monimutkaisten kieliopillisten kuvioiden käsittelyyn. 

Toiseksi toteutimme toteutimme kielten oppimisympäristön sahalle Revita-tietokoneavusteisessa kielten oppimisalustassa käyttäen kehitettyä morfologista analysoijaa. Loimme myös Turkic Interlingua -korpuksen ja koulutimme mallit kielipareille venäjä-saha, saha-venäjä, englanti-saha ja saha-englanti, sekä monisuuntaisen neuroverkkokäännösmallin. Suoritimme kattavan analyysin tukeutuen automaattisiin metriikoihin sekä ihmisarviointeihin. 

Neljänneksi loimme NorQuAD:n, joka on ensimmäinen norjalainen kysymys-vastaus-aineisto koneellisen lukutaidon ymmärtämiselle. Aineisto koostuu 4752 manuaalisesti laaditusta kysymys-vastaus parista. Vertailimme useita monikielisiä ja norjalaisia yksikielisiä kielimalleja kysymys-vastaus-aineiston perusteella ja vertasimme tuloksia ihmisten suoritukseen. 

Lopuksi kehitimme runouden kirjoittamiseen soveltuvan menetelmän, jota voidaan soveltaa moniin kieliin. Esittelimme menetelmän käyttäen esimerkkinä suomea. Menetelmä tuottaa runoutta yksi rivi kerrallaan käyttäen sekvenssistä sekvenssiin -neuroverkkomallia, jota on hienosäädetty tähän tarkoitukseen.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-952-84-0105-6.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: sardana.ivanova@helsinki.fi.