Jarkko Lagus väittelee aiheesta Muunnokset ja dokumenttien etäisyydet sanaupotusavaruuksissa

FM Jarkko Lagus väittelee perjantaina 2.6.2023 aiheesta Muunnokset ja dokumenttien etäisyydet sanaupotusavaruuksissa. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Multi-source Probabilistic Inference -ryhmässä tehtävää tutkimusta.

FM Jarkko Lagus puollustaa väitöskirjaansa "Transformations and document similarities in word embedding spaces" perjantaina 2.6.2023 klo 13 Helsingin yliopiston Physicum-rakennuksen auditoriossa E204 (Gustaf Hällströmin katu 2, 2. kerros). Vastaväittäjänä toimii professori Filip Ginter (Turun yliopisto) ja kustoksena apulaisprofessori Arto Klami (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi. 

Jarkko Laguksen väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Multi-source Probabilistic Inference -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajana on toiminut apulaisprofessori Arto Klami (Helsingin yliopisto).

Muunnokset ja dokumenttien etäisyydet sanaupotusavaruuksissa

Luonnollisen kielen käsittely tutkii automaattisia tapoja analysoida luonnollisilla kielillä esitettyjä aineistoja, ja tarkoitukseen kehitettyjä menetelmiä sovelletaan laajalti eri tehtäväalueilla. Useimmat nykyaikaiset menetelmät perustuvat eri pituisista tekstiyksiköistä muodostettaviin numeerisiin esityksiin, eli niin kutsuttuihin upotuksiin, jotka opitaan monimutkaisten mallien avulla hyödyntäen laajoja tekstiaineistoja. Näiden upotusmallien tavoitteena on oppia yleinen esitysmuoto, jonka avulla voidaan ratkaista erilaisia monimutkaisia kielellistä osaamista vaativia tehtäviä. Kun sopivat sanaupotukset on opittu, niiden käyttö uusien ongelmien ratkaisussa vaatii usein vain kevyttä hienosäätöä.

Monissa luonnollisen kielen tehtävissä tarvitaan osaratkaisuna tekstidokumenttien samankaltaisuuden mittaamista. Tällaisia tehtäviä ovat muun muassa aineiston haku, ryhmittely ja luokittelu. Tässä työssä tutkitaan sanaupotusten pohjalta luotujen matriisimuotoisten esitystapojen ominaisuuksia ja tehokkuutta dokumenttien samankaltaisuuden mittaamisessa. Tutkimuksessa keskitytään tehokkaisiin matalaulotteisiin esitystapoihin ja esitellään uusia matriisipohjaisia etäisyysmittareita dokumenttien vertailuun. Matriisipohjaisten esitystapojen suurin etu verrattuna yleisemmin käytettyihin vektoriesityksiin on kyky mallintaa tietoa kattavammin. Työssä osoitetaan, että vaikka matriisimuotoisten esitystapojen suoraviivaiset toteutukset vaativat enemmän muistia ja laskennallisia resursseja, niiden kokoa voidaan pienentää muisti- ja laskentatehokkuuden parantamiseksi. Näytämme kokeellisesti, että uudet matriisipohjaiset esitystavat ja niiden pohjalta muodostetut etäisyysmitat parantavat tuloksia sekä staattisilla että kontekstisidonnaisilla sanaupotuksilla, mutta kontekstisidonnaisilla upotuksilla hyödyt jäävät vähäisemmiksi.

Matriisiesitystapojen ja -etäisyyksien lisäksi työssä tarkastellaan sanaupotuksista johdettuja avaruuden muunnoksia ja kehitetään menetelmiä sentimentin ja kieliopillisen tiedon eristämiseksi erilaisista aineistoista. Koska sanaupotukset usein opitaan pyrkien säilyttämään sanojen lineaariset suhteet, avaruuden muunnokset tarjoavat yksinkertaisen matemaattisen työkalun aineiston analysointiin. Työssä käydään läpi, kuinka näitä lineaarisia suhteita voidaan hyödyntää myös käsitteellisemmän tiedon kuten moraalisentimentin mallintamiseen. Lisäksi työssä tutkitaan aiemmin mainittujen esitystapojen tehokasta soveltamista ja niiden yleistymistä eri kielien välillä. Työssä hyödynnetään sekä suomenkielisiä että englanninkielisiä aineistoja.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-9301-8.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: jarkko.lagus@helsinki.fi.