M.Sc. Rita Beigaitė puollustaa väitöskirjaansa "Machine Learning Methods for Globally Structured Multi-Target Data" perjantaina 16.6.2023 klo 13 Helsingin yliopiston Chemicum-rakennuksen auditoriossa A129 (A.I. Virtasen aukio 1, 1. kerros). Vastaväittäjänä toimii professori João Gama (Universidade do Porto, Portugali) ja kustoksena apulaisprofessori Indrė Žliobaitė (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.
Rita Beigaitėn väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Data Science and Evolution -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajana on toiminut apulaisprofessori Indrė Žliobaitė (Helsingin yliopisto).
Koneoppimismenetelmiä maailmanlaajuisesti strukturoidun monikohteisen datan käsittelyyn
Maapalloon liittyvän maantieteellisesti paikannetun havaintodatan määrä kasvaa koko ajan, ja tämä kasvu mahdollistaa uusia tutkimussuuntia ekologiassa. Datan määrä ja monimutkaisuus tuovat kuitenkin uusia menetelmällisiä haasteita koneoppimiskentälle. Tämä monitieteellinen väitöskirja tutki koneoppimismenetelmiä, joita käytettiin globaalisti jakautuneen monikohteisen datan analysoimiseen tutkimalla globaalin kasvillisuuden jakautumista.
Ekologisten riskien torjunnassa on keskeistä ymmärtää ilmastonmuutoksen mahdolliset vaikutukset kasvillisuuden peittävyyteen. Tästä ekologisesta näkökulmasta tämä väitöskirjatyö pyrki parantamaan ymmärrystämme globaaleista yhteyksistä kasvillisuuden ja ilmaston välillä. Koneoppimisen näkökulmasta pääasiallinen tavoite oli kehittää räätälöityjä malleja globaalisti jakautuneelle monikohteiselle datalle. Tämä väitöskirja käsittelee erityisesti kolmea kasvillisuusmallinnustehtävään liittyvää menetelmällistä haastetta: mallin tulkittavuus, epätäydellisyys regression ongelman kohteissa sekä mallin arviointi.
Tässä väitöskirjassa kasvillisuusmallinnusta ja siihen liittyviä menetelmällisiä haasteita on käsitelty kolmessa päävaiheessa. Ensinnäkin yhteistyössä kasvillisuuden asiantuntijoiden kanssa tutkittiin ilmastollisia kynnysarvoja, jotka hallitsevat kasvillisuuden jakautumista maailmanlaajuisesti, hyödyntäen päätöspuumalleja, joilla on erittäin tulkittava rakenne. Lisäksi tutkittiin ilmastollisten ääri-ilmiöiden merkitystä erilaisten kasvillisuustyyppien hallitsemisessa. Sitten muotoilimme uuden laskennallisen ongelmanasettelun monikohteiselle regressiolle, jossa on rakenteellisesti epätäydellisiä kohdetunnisteita. Tällainen ongelmanasettelu oli tarpeen käsiteltäessä luonnollisen kasvillisuuden jakautumishavaintoihin liittyvää epätäydellisyyttä, jota esiintyy etäisyysmittaustekniikoiden kuten maapeitteitä koskevien tietojen koostumuksen rakenteen vuoksi. Kehitimme osittaisen korjausmenetelmän ja arvioimme sen tehokkuutta epätäydellisen aineiston aiheuttaman hälyn vähentämisessä. Viimeiseksi suunnittelimme kokeellisen järjestelyn, jossa tarkasteltiin spatiaalista ristivalidointimenettelyä, varmistaaksemme, että mallin arviointi ei ole harhaanjohtavaa maailmanlaajuisesti jakautuneiden tietojen vahvan spatiaalisen autokorrelaation vuoksi.
Tämä väitöskirjatutkimus osoitti, että koneoppimismallien rakentamisessa ja arvioinnissa on tärkeää ottaa huomioon sekä datan epätäydellisyys että spatiaalinen autokorrelaatio. Yhteistyössä kasvitieteilijöiden kanssa toteutettu lähestymistapa auttoi varmistamaan mallien tulkittavuuden ja mahdollisti sen johtopäätöksen, että kasvillisuusmallinnustehtävän tunnistamat mallit ovat merkityksellisiä ja informatiivisia.
Väitöskirjan saatavuus
Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-9331-5.
Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: rita.beigaite@helsinki.fi.