Synteettinen data voi suojata yksityisyyttä

Tekoälyn tuottaman synteettisen eli keinotekoisen datan avulla voi tehdä tilastollisia päätelmiä esimerkiksi oikeiden ihmisten henkilötiedoista. Synteettisen datan tutkimukseen liittyy nyt sekä lupauksia että haasteita.

Tekoälyn käyttö voisi vähentää henkilötietojen käsittelyyn liittyviä tietosuojariskejä. Tämä voisi onnistua tietokoneen luoman synteettisen eli keinotekoisen datan avulla. Usein synteettisen datan tuottamisessa käytetään generatiivista tekoälyä, joka luo esimerkiksi tekstiä tai kuvia.

Tekoälyn luoma synteettinen data voi muistuttaa esimerkiksi oikeiden ihmisten terveystietoja tai pankkitietoja. Tekoälyn voi panna tuottamaan myös ihmisten sijaintia tai liikkumista muistuttavaa dataa.

– Parhaimmillaan synteettinen data voi olla täysin anonyymiä, jolloin se ei kerro suoraan oikeista ihmisistä, kertoo datatieteen professori Antti Honkela Helsingin yliopistosta.

Anonymiteettiin liittyy kuitenkin myös ongelmia. Synteettisen datan pitäisi muistuttaa riittävästi esimerkiksi oikeiden ihmisten henkilötietoja, jotta sen avulla voidaan korvata alkuperäisen datan käyttöä.

– Miten yhdistetään alkuperäisen kaltaisuus ja anonymiteetti? Tähän tutkijat etsivät nyt ratkaisuja, Honkela sanoo.

Differentiaalinen tietosuoja auttaa säilyttämään anonymiteetin

Helsingin yliopistossa ja tekoälyn tutkimuskeskus FCAIssa työskentelevän Honkelan tutkimusryhmä on kehittänyt tapaa tuottaa ja analysoida henkilötietoihin perustuvaa synteettistä dataa.

– Meidän menetelmämme tuottama synteettinen data on anonyymiä, mutta onnistuimme tekemään sen avulla luotettavia tilastollisia päätelmiä alkuperäisestä datasta. Aiemmat menetelmät eivät ole mahdollistaneet luotettavaa tilastollista päättelyä anonyymillä synteettisellä datalla, Honkela kertoo.

Honkelan ryhmän menetelmässä tuotetaan yhden synteettisen datajoukon sijaan useita sopivalla tavalla erilaisia joukkoja. Kun tiedot analysoidaan ja tulokset yhdistetään sopivasti, on mahdollista tehdä luotettavia päätelmiä alkuperäisestä datasta niin, että myös päättelyyn liittyvä epävarmuus arvioidaan oikein.

Tulosten todistettu anonymiteetti perustuu niin kutsuttuun differentiaaliseen tietosuojaan, jossa anonymiteetin tasoa on mahdollista säätää.

– Tällä on hintansa: tiukka anonymiteetti laskee tulosten tarkkuutta ja lisää niihin liittyvää epävarmuutta. Menetelmämme osaa kuitenkin huomioida tämän epätarkkuuden vaikutuksen lopputulokseen, Honkela kertoo.

Honkelan mukaan tulokset laajentavat synteettisen datan käyttömahdollisuuksia tutkimuksessa, koska menetelmän avulla on mahdollista tehdä vähintään alustavia tilastollisia analyysejä.

– Joissain tapauksissa analyysin tulos voi jäädä epävarmaksi, jolloin tarkemman tuloksen saamiseksi pitää toistaa analyysi alkuperäisellä, aidolla datalla, jos mahdollista.

Honkela kollegoineen on julkaissut tutkimukseen perustuvia anonyymin synteettisen datan työkaluja avoimen lähdekoodin ohjelmistopaketissa.

Kuka synteettistä dataa tuottaa?

Honkelan mukaan synteettisen datan tuottaminen on ensisijaisesti erilaisten rekisteritietojen haltijoiden vastuulla. Ne voisivat jakaa anonyymiä synteettistä dataa tutkijoille avoimen datan tapaan. Tutkijat voisivat käyttää dataa esimerkiksi opetukseen ja ohjelmistokehitykseen sekä alustaviin tilastollisiin analyyseihin.

Honkelan mukaan synteettinen data näyttäisi lupaavalta tavalta vähentää henkilötietojen tietosuojaongelmia tutkimuksessa.

–  Aihe on esillä niin sosiaali- ja terveysalalla, Tilastokeskuksessa kuin eurooppalaisessa terveysdatakeskustelussa. Uskon, että kehittämämme menetelmä laajentaa merkittävästi synteettisen datan käyttömahdollisuuksia.

Honkela muistuttaa, että synteettinen data ei ratkaise yksityisyyden suojan haasteita lopullisesti.

–  Sen tuottamisessa menetetään aina osa alkuperäisen datan informaatiosta. Oikein käytettynä se voi kuitenkin olla osa ratkaisua, jolla henkilötietoja voi käyttää turvallisesti.

Katso tallenne DataLitin järjestämästä Synteettinen data yhteiskunnassa – Voiko väestöä simuloida? -tapahtumasta

Artikkeli tilastollisen päättelyn mahdollistavasta menetelmästä:

Ossi Räisä, Joonas Jälkö, Samuel Kaski ja Antti Honkela. Noise-Aware Statistical Inference with Differentially Private Synthetic Data. Teoksessa Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (AISTATS 2023), 2023.

Tutkimusta on tukenut strategisen tutkimuksen neuvoston rahoittama DataLit-hanke.