Eliel Soisalon-Soininen väittelee aiheesta Neuroverkkoperusteinen siirto-oppiminen resurssiköyhän luonnollisen kielen käsittelyssä

DI Eliel Soisalon-Soininen väittelee torstaina 6.7.2023 aiheesta Neuroverkkoperusteinen siirto-oppiminen resurssiköyhän luonnollisen kielen käsittelyssä. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Discovery Research -ryhmässä tehtävää tutkimusta.

DI Eliel Soisalon-Soininen puollustaa väitöskirjaansa "Neural Transfer Learning for Truly Low-Resource Natural Language Processing" torstaina 6.7.2023 klo 12 Helsingin yliopiston Porthania-rakennuksen auditoriossa PIII (Yliopistonkatu 3, 1. kerros). Vastaväittäjänä toimii professori Liviu Dinu (Universitatea din București, Romania) ja kustoksena professori Hannu Toivonen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi. 

Eliel Soisalon-Soinisen väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Discovery Research -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajina ovat toimineet professori Hannu Toivonen (Helsingin yliopisto) ja Senior AI Scientist Mark Granroth-Wilding (Silo AI).

Neuroverkkoperusteinen siirto-oppiminen resurssiköyhän luonnollisen kielen käsittelyssä

Edistynyt neuroverkkoperusteinen luonnollisen kielen käsittely vaatii suuria annotoituja opetusaineistoja, joiden saatavuus on runsasta vain harvoilla kielillä. Suurin osa maailman kielistä taas on resurssiköyhiä ja ilman tällaisia aineistoja. Opetusaineistot voivat olla niukkoja resurssirikkaillakin kielillä joillakin aihealueilla. Resurssiköyhän luonnollisen kielen käsittely on olennaista eri kieliyhteisöjen sisällyttämiseksi kieliteknologiseen kehitykseen sekä sovellusten laajentamiseksi useammille aihealueille. 

Tämä väitöskirja keskittyy kahteen luonnollisen kielen käsittelyn tehtävään. Yhtäältä kohteena on sukulaissanojen tunnistus, sillä sukulaissanat ovat hyödyllisiä eri sovellusten siirtämiseksi useampiin kieliin. Toisaalta tarkastelun kohteena on tekstinsuunnittelu osana luonnollisen kielen tuottamista, jolle monet aihealueet ovat resurssiköyhiä annotoitujen opetusaineistojen huonon saatavuuden vuoksi. Viimeaikaisten lupaavien tuloksien myötä väitöskirjassa esitellään neuroverkkoperusteisia ratkaisuja näihin tehtäviin esiopetusaineistoja ja siirto-oppimista hyödyntäen. 

Väitöskirjan tavoite jaetaan kolmeen tarkemmin määriteltyyn tutkimustehtävään, jotka kohdistuvat erilaisiin erityisen resurssiköyhiin asetelmiin. Ensimmäiseksi käsitellään sukulaissanojen tunnistusta uhanalaisissa suomalais-ugrilaiseen kieliperheeseen kuuluvissa saamelaiskielissä, kun annotoitua opetusaineistoa on niukasti. Ratkaisumalleiksi esitetään sekä siiamilaista konvoluutioneuroverkkoa että tukivektorikonetta, jotka esiopetetaan resurssirikkaiden indoeurooppalaisten kielten etymologisella aineistolla., vaikkeivät nämä ole sukua saamelaiskielille. Konvoluutioneuroverkon todetaan kokeiden perusteella suoriutuvan tehtävästä parhaiten, kun esiopetettuja malleja sovelletaan suoraan saamelaisaineistoon. Lisäksi sen todetaan sopeutuvan nopeasti hienosäädettäessä pienellä saamelaiskielten etymologisella aineistolla. 

Toiseksi väitöskirjassa tarkastellaan sukulaissanojen tunnistusta asetelmassa, jossa annotoitua opetusaineistoa suomalais-ugrilaisista kohdekielistä ei ole lainkaan saatavilla. Ohjatun hienosäätämisen sijaan vertaillaan kahta ohjaamatonta lähestymistapaa esiopetetun neuroverkkomallin sopeuttamiseksi kohdekieliin. Näistä ensimmäisessä käytetään vastakkaisia neuroverkkoja, kun taas toisessa esiopetettuja merkkiupotteita. Kokeiden perusteella huomataan, että esiopetuksen ja ohjaamattoman sopeuttamisen yhdistelmä vastakkaisten verkkojen avulla parantaa suorituskykyä verrattuna pelkkään esiopetukseen. Merkkiupotteiden taas todetaan olevan hyödyllisiä sukulaissanoja tunnistettaessa ortografialtaan erilaisten kielten välillä. 

Kolmanneksi väitöskirjassa keskitytään tekstinsuunnitteluun uutisten automaattisessa tuottamisessa jäsennellystä aineistosta, erityisesti aihealueella, jolla annotoitua opetusaineistoa ei ole lainkaan saatavilla. Ratkaisuksi esitetään etäohjattua oppimista, eli annotoidun aineiston muodostamista automaattisesti uutistekstistä neuroverkon opettamiseksi lauseiden järjestämistä varten. Väitöskirjassa vertaillaan kolmenlaisia neuroverkkoja lauseiden järjestämisessä, ja kvalitatiivisen arvioinnin perusteella todetaan, että siiamilaista konvoluutioverkkoa hyödyntävän tekstinsuunnittelun avulla tuotetaan uutistekstejä heuristiikkoja laadukkaammin. 

Väitöskirjassa käsitellään aikaisemmin tutkimattomia resurssiköyhiä luonnollisen kielen käsittelyn asetelmia kahden eri tehtävän kautta, joihin syväoppimista on sovellettu vain vähän. Näihin eri tilanteisiin esitetään uusia neuroverkkoihin sekä siirto-oppimiseen perustuvia ratkaisuja, joiden suorituskyky vertailumalleihin nähden osoitetaan kokeellisesti. Vaikka sääntöperusteiset menetelmät ja heuristiikat saattavat edelleen olla toimivampia ratkaisuja äärimmäisen resurssiköyhien kielten ja aihealueiden tapauksessa, tämän väitöskirjan menetelmät ovat kieli- ja aihealueriippumattomia ja siksi helpommin siirrettävissä uusiin kieliin tai aihealueisiin.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-9342-1.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: eliel.soisalon-soininen@helsinki.fi.