Rafael Savvides väittelee aiheesta Tilastollisia menetelmiä epävarmuuksien hallintaan data-analyysissä ja mallien rakentamisessa

DI Rafael Savvides väittelee perjantaina 11.10.2024 aiheesta Tilastollisia menetelmiä epävarmuuksien hallintaan data-analyysissä ja mallien rakentamisessa. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Exploratory Data Analysis -ryhmässä tehtävää tutkimusta.

DI Rafael Savvides puollustaa väitöskirjaansa"Statistical methods for testing visual patterns, selecting models, and bounding model errors" perjantaina 11.10.2024 klo 13 Helsingin yliopiston Exactum-rakennuksen auditoriossa CK112 (Pietari Kalmin katu 5, pohjakerros). Vastaväittäjänä toimii professori Pauli Miettinen (Itä-Suomen yliopisto) ja kustoksena professori Kai Puolamäki (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Rafael Savvidesin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Exploratory Data Analysis -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajana on toiminut professori Kai Puolamäki (Helsingin ylipisto).

Tilastollisia menetelmiä visuaalisten piirteiden testaukseen, mallin valintaan ja yksittäisten datapisteiden virheiden arviointiin

Datatiede käsittelee datan analysointia ja mallien rakentamista datan pohjalta. Analyyseja ja malleja käytetään päätöksenteossa ja tuotteiden kehittämisessä, jotka vaikuttavat elämäämme. Epätäydellinen data tuo epävarmuuksia, jotka voivat vaikuttaa päätöksiin ja tuotteisiin negatiivisesti, jos niitä ei tunnisteta. 

Tässä väitöskirjassa esitellään kolme menetelmää, jotka auttavat hallitsemaan epävarmuuksia datan analysoinnissa ja mallien rakentamisessa. Menetelmät tarjoavat tilastollisia takuita visuaalisille piirteille, mallivalinnalle ja yksittäisten datapisteiden virheiden arvioinnille. Menetelmät koskevat koneoppimisen perusongelmia ja ovat siksi laajasti sovellettavissa. 

Ensimmäinen menetelmä keskittyy visuaalisiin piirteisiin, joita havaitaan dataa tutkittaessa. Datatieteilijät tutkivat dataa tyypillisesti erilaisten visualisointien avulla, jotka paljastavat piirteitä datassa. Koska data sisältää kohinaa, havaitut kuviot voivat olla satunnaisia. Menetelmämme on tilastollinen testausmenetelmä, jolla voidaan arvioida, ovatko havaitut kuviot todellisia vai kohinasta johtuvia. 

Toinen menetelmä liittyy mallivalintaan koneoppimisessa. Ennustetehtävän edessä datatieteilijät kouluttavat ja validoivat useita malleja. Validointiin on rajallinen määrä dataa, ja vähemmän dataa käyttämällä valinta on epävarmempi, mutta epävarmuuden kvantifiointi ei ole yksinkertaista. Kehittämämme algoritmi päättää automaattisesti, kuinka paljon dataa käytetään validointiin, varmistaen, että valitun mallin suorituskyky on lähellä parasta mallia annetulla todennäköisyydellä. 

Kolmas menetelmä koskee yksittäisten datapisteiden ennustusvirheiden arviointia. Koneoppimismallit arvioidaan yleensä keskimääräisen virheen perusteella, mutta yksittäisten pisteiden virhe voi poiketa tästä merkittävästi. Menetelmämme tarjoaa ylärajan mille tahansa regressiomallin tuntemattomalle ennustusvirheelle tietyssä testipisteessä. Raja parantaa olemassa olevia Gaussin prosesseihin perustuvia menetelmiä vaatimalla vähemmän tietoa käyttäjältä, ollen sovellettavissa laajaan joukkoon Gaussin prosesseja ja mitä tahansa regressiomenetelmää sekä ollen laskennallisesti nopeampi.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston avoimessa julkaisuarkistossa Heldassa osoitteessa http://urn.fi/URN:ISBN:978-952-84-0695-2.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: rafael.savvides@helsinki.fi