Tekoälyjärjestelmät käsittelevät yksityisiä tietoja, ja siksi ne eivät saa muistaa liikaa

Datatieteen professori Antti Honkela tutkii yksityisyyttä suojaavaa tekoälyä. Kun tekoälymalleja koulutetaan arkaluontoisia tietoja käyttäen, pitää varmistaa, ettei malli muista ja paljasta tietoja.

Mitä tutkit?

Ryhmäni tutkimus käsittelee tekoälyn luotettavuutta. Tähän liittyy useita näkökulmia, joista keskitymme erityisesti tietosuojaan ja yksityisyyden suojaan sekä epävarmuuden käsittelyyn. Tutkimme, miten tekoälyjärjestelmät suoriutuvat näistä haasteista ja kehitämme menetelmiä, jotka parantavat niiden suoriutumista.

Olemme muun muassa kehittäneet menetelmiä, joilla voidaan taata, että tekoälyjärjestelmä ei voi paljastaa sen koulutuksessa käytettyjä luottamuksellisia tietoja. Olemme kehittäneet myös menetelmiä tuottaa anonyymiä synteettistä dataa, jota voidaan käyttää monissa sovelluksissa turvallisena vaihtoehtona henkilötietojen sijaan.

Mihin ja miten tutkimuksesi aihe vaikuttaa?

Tekoälyjärjestelmät ovat viime vuosina levinneet yhä uusille aloille, joista monilla järjestelmien luotettavuuteen liittyvät kysymykset ovat tärkeitä.

Yksi tärkeä esimerkkisovellus on terveystietojen käyttö tekoälymallien koulutuksessa. Esimerkiksi mielenterveyspotilaiden tietoja voidaan käyttää kouluttamaan tekoälymallia, joka voisi toimia mielenterveyspäivystyksen työntekijöiden apuna. Tekoälymalli voisi esimerkiksi ehdottaa keskusteluun sopivia teemoja ja viestejä. 

Tällainen malli ei saisi missään tilanteessa paljastaa koulutusaineiston tietoja kenellekään. Ryhmäni kehittää menetelmiä sekä tietojen muistamisen analysointiin että niiden muistamisen estämiseen.

Vastaavia haasteita tulee vastaan monissa muissakin tilanteissa, joissa halutaan hyödyntää arkaluontoisia henkilötietoja.

Mikä alallasi inspiroi sinua erityisesti juuri nyt?

Minua inspiroi se, miten ryhmäni ja muun alan yhteisön tutkimuksen tulokset alkavat näkyä jokapäiväisessä elämässä ja kiinnostavat laajasti. 

Tekoälyjärjestelmien taipumus muistaa opetusaineistonsa liittyy suoraan keskusteluun generatiivisen tekoälyn tuotosten tekijänoikeusloukkauksista. Tämä on herättänyt paljon huomiota. Terveystietojen käyttö tekoälyjärjestelmien koulutukseen ja tähän liittyvät tietojen paljastumisen riskit ovat myös herättäneet julkista keskustelua. 

Lisääntyneen kiinnostuksen taustalla on myös aito edistyminen: tekoälymallien kouluttamiseen käytettävät, opetusaineiston yksityisyyden takaavat menetelmät ovat kehittyneet varsin hyviksi. Monissa sovelluksissa ne jo oikeasti pystyvät yhdistämään riittävän tarkkuuden ja yksityisyyden.