Miten varmistaa tekoälyjärjestelmien anonymiteetti?

Uuden tutkimuksen mukaan tekoälyjärjestelmien kehittäjien täytyy käyttää yksityisyyden turvaavia teknologioita varmistaakseen, ettei opetusaineiston kohteiden tietosuoja vaarannu.

Tekoälyjärjestelmät, jotka koulutetaan koneoppimista käyttäen, säilyttävät jäljen niiden opetusaineistosta, mikä mahdollistaa opetukseen käytetyn datan tunnistamisen.

Suuremmilla opetusaineistoilla koulutetut järjestelmät ovat vähemmän alttiita tunnistamiselle, mutta alttiuden hävittäminen vaatisi epäkäytännöllisen suuria aineistoja.

Datalit-projektissa ja Suomen Tekoälykeskus FCAI:ssa toimivien Helsingin yliopiston ja Kioton yliopiston tutkijoiden artikkelilla, joka on julkaistu tekoälyalan arvostetuimmassa NeurIPS -konferenssissa, on merkittäviä vaikutuksia tekoälyjärjestelmien kehittäjille, jotka käyttävät opetusaineistona arkaluontoisia tietoja tai henkilötietoja kuten terveystietoja.

- Kehittäjien tulee käyttää yksityisyyttä turvaavia teknologioita kuten differentiaalista tietosuojaa varmistaakseen, etteivät opetusaineiston kohteet paljastu. Differentiaalisen tietosuojan avulla on mahdollista todistaa matemaattisesti, että valmis malli tai järjestelmä ei paljasta liikaa kenestäkään opetusaineiston yksilöstä, professori Antti Honkela sanoo. 

Riskit tekoälyn koulutuksessa henkilötiedoilla

EU:n tietosuoja-asetus (GDPR) määrittelee tiukat säännöt henkilötietojen käsittelyyn. Euroopan tietosuojaneuvoston hiljattaisen mielipiteen mukaan tekoälyjärjestelmä voidaan luokitella henkilötiedoksi, jos siitä voidaan tunnistaa opetusaineiston yksilöitä.

Uusi tulos korostaa tätä riskiä tekoälyjärjestelmille, joiden koulutuksessa on käytetty henkilötietoja.

- Terveysalan tekoälyjärjestelmät ovat tärkeä tuloksen sovelluskohde. Suomen terveystietojen toisiokäyttöä käsittelevä laki ja uusi eurooppalaista terveysdata-aluetta koskeva EU-asetus vaativat, että terveystietojen avulla kehitettyjen tekoälyjärjestelmien pitää olla anonyymejä, eli niistä ei saa olla mahdollista tunnistaa koulutusaineiston yksilöitä.

Saman tutkimusryhmän aiempi työ osoittaa, että differentiaalinen tietosuoja mahdollistaa todistettavasti anonyymien tekoälyjärjestelmien kouluttamisen.

Raportoitu tulos saavutettiin tutkimalla kuvia luokittelevan tekoälyn alttiutta opetusaineiston yksilöiden tunnistamiselle. Työssä käytettiin suurella julkisella kuva-aineistolla koulutettua mallia, jota hienosäädettiin pienellä arkaluontoisella aineistolla. Tulosten mukaan näin hienosäädetty malli on vähemmän altis kuin malli, joka on koulutettu alusta alkaen pelkästään arkaluontoisella aineistolla.

Artikkelin tiedot

Marlon Tobaben, Hibiki Ito, Joonas Jälkö, Yuan He and Antti Honkela. In Advances in Neural Information Processing 39 (NeurIPS 2025).
 

Lisätietoja