FM Ossi Räisä puolustaa väitöskirjaansa "Theory and Algorithms for Usable Synthetic Data and Efficient Privacy-Preserving Computation" perjantaina 14.11.2025 klo 13 Helsingin yliopiston Exactum-rakennuksen auditoriossa CK112 (Pietari Kalmin katu 5, pohjakerros). Vastaväittäjänä toimii vanhempi tutkija Aurélien Bellet (Antenne Inria de l'Université de Montpellier, Ranska) ja kustoksena professori Antti Honkela (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.
Ossi Räisän väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Trustworthy Machine Learning -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajana on toiminut professori Antti Honkela (Helsingin yliopisto).
Teoriaa ja algoritmeja käytettävää synteettistä dataa ja tietosuojan säilyttävää laskentaa varten
Ihmisistä kerätyn datan määrän kasvaessa heidän tietosuojan varmistamisesta tulee yhä tärkeämpää. Helpoin tapa varmistaa tietosuoja on rajoittaa pääsyä dataan, mutta tämä myös rajoittaa datan analysoimisesta saatavaa hyötyä. Differentiaalinen tietosuoja on matemaattinen määritelmä tietosuojalle, joka kvantifioi täysin avoimen ja täysin suljetun datan välisen kompromissin. Se on kuitenkin hyvin tiukka määritelmä tietosuojalle, joten sen edellyttäminen voi merkittävästi heikentää datan analyysien tarkkuutta ja hyötyä.
Tässä väitöskirjassa tarkastellaan useampaa keinoa parantaa differentiaalista tietosuojaa käyttävien analyysien tarkkuutta. Ensimmäinen näistä on synteettinen data, joka tarkoittaa oikeaa dataa muistuttavaksi luotua dataa ja jota voidaan käyttää oikean datan sijasta. Jos synteettinen data luodaan differentiaalista tietosuojaa käyttäen, synteettistä dataa voidaan analysoida mielivaltaisesti, mikä ei muuten ole mahdollista differentiaalista tietosuojaa käytettäessä. Synteettistä dataa voidaan myös luoda ilman differentiaalista tietosuojaa, mikä parantaa tulosten tarkkuutta, mutta kasvattaa suojattujen tietojen paljastumisen riskiä.
Tämän väitöskirjan kahdessa ensimmäisessä osajulkaisussa tutkitaan tilastollista päättelyä synteettisestä datasta. Synteettistä dataa ei voida tässä yhteydessä käyttää täysin samalla tavalla kuin oikeaa dataa, sillä synteettinen data lisää tulokseen liittyvää epävarmuutta. Tämä pitää ottaa huomioon epävarmuuden suuruutta arvioitaessa esimerkiksi luottamusvälin avulla. Differentiaalisen tietosuojan käyttäminen kasvattaa tätä epävarmuutta vielä enemmän. Ongelman ratkaisu on ensimmäisessä osajulkaisussa kehitetty synteettisen datan luontimenetelmä, joka huomioi kasvaneen epävarmuuden luomalla useamman synteettisen datajoukon. Ensimmäisesssä osajulkaisussa tarkastellaan frekventististä tilastollista päättelyä ja näytetään että tiettyä olemassaolevaa menetelmää voidaan käyttää edellämainitulla menetelmällä luotujen synteettisten datajoukkojen analysointiin. Toisessa osajulkaisussa näytetään, että toinen aiemmin kehitetty menetelmä soveltuu bayesilaiseen tilastolliseen päättelyyn näitä synteettisiä datajoukkoja analysoitaessa sopivalla tavalla.
Kolmannessa osajulkaisussa tarkastellaan teoreettisesti useamman synteettisen datajoukon käyttämistä ohjatussa koneoppimisessa. Tämä on kokeellisesti todettu hyödylliseksi aiemmissa tutkimuksissa. Päätuloksena on harhan ja varianssin hajotelma tässä asetelmassa, joka muun muassa auttaa valitsemaan sopivan synteettisten datajoukkojen määrän.
Neljännessä ja viidennessä osajulkaisussa tarkastellaan synteettisen datan sijasta muita keinoja parantaa differentiaalista tietosuojaa käyttävien analyysien tarkkuutta. Neljännessä osajulkaisussa tarkastellaan differentiaalista tietosuojaa käyttävän algoritmin optimointia simuloidun datan avulla. Tämä algoritmi tekee probabilistisia ennusteita pienellä määrällä oikeaa dataa. Algoritmi metaoppii simuloidun datan avulla ja sen jälkeen sopeutuu oikeaan dataan differentiaalisen tietosuojan alaisuudessa syöttämällä data neuroverkon läpi.
Viidennessä osajulkaisussa tutkitaan syytä suurten erien tehokkuudelle differentiaalisen tietosuojan antavassa versiossa stokastisesta gradienttimenetelmästä. Tämä on kokeellisesti havaittu aiemmissa tutkimuksissa. Syy löytyy gradienttien varianssista: suuret erät pienentävät kokonaisvarianssia.
Väitöskirjan saatavuus
Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston avoimessa julkaisuarkistossa Heldassa osoitteessa
Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: