Sinullakin on salaisuuksia - koneoppimisen pitää kunnioittaa yksityisyyden suojaa

Miten opettaa tekoäly tasapuoliseksi päätöksentekijäksi? Miten suojata kansalaisten yksityisyys laajojen tietomäärien käsittelyssä? Muun muassa nämä kysymykset pitää ratkaista, ennen kuin tekoälyä ja koneoppimista voi soveltaa nykyistä laajemmin.

Keväällä 2018 sähköpostit tiukkuivat lähes kyllästymiseen asti viestejä yrityksiltä ja järjestöiltä, jotka ilmoittivat, millaisiin toimiin ne ryhtyvät Euroopan unionin tietosuoja-asetuksen eli tutummin GDPR:n vuoksi. Asetuksen tarkoitus oli parantaa erilaisiin henkilörekistereihin kuuluvien kansalaisten yksityisyyden suojaa.

Asetus sivuaa vahvasti Helsinki Centre for Data Science -tutkimuskeskuksessa (HiDATA) vuoden alussa työnsä aloittaneen apulaisprofessorin Antti Honkelan tutkimuksia. Hän on paneutunut yksityisyyden suojaavaan koneoppimiseen.

– Koneoppiminen ja tekoäly toimivat parhaiten, kun käytössä on suuria tietovarantoja. Ongelmaksi kuitenkin muodostuu usein se, että tarvittavat tiedot voivat kuulua tavallisten ihmisten yksityisyyden suojan piiriin. Koneoppimisen hyödyntäminen ei saa vaarantaa yksityisyyttä, Honkela selittää.

Sovellusmahdollisuuksia kaikilla elämänaloilla

Koneoppimista voisi hyödyntää esimerkiksi lääketieteellisissä tutkimuksissa, joissa aineistona on ihmisten terveystietoja sisältäviä laajoja rekistereitä. Honkela on itse ollut mukana kehittämässä yksityisyyden suojaavan koneoppimisen menetelmiä tutkimuksissa, joissa on etsitty parannuskeinoja vakaviin sairauksiin.

– Tarkoitus on ollut löytää kullekin potilaalle parhaiten soveltuva hoitomuoto. Samaan syöpään ei aina tepsi sama hoito. Esimerkiksi kunkin ihmisen perimä voi vaikuttaa siihen, millainen lääke toimii ja millainen ei. Olemme kehittäneet menetelmiä, joilla vastauksia voi kaivaa suuresta aineistosta, Honkela kuvailee.

Jotta tutkijat saisivat riittävän suuren aineiston, heidän pitää pystyä vakuuttamaan ihmiset siitä, että tutkimus ei vaaranna siihen osallistuvien yksityisyyttä. Arkaluonteisia tietoja ei pidä voida yhdistää yksittäisiin henkilöihin.

Honkela ratkoo tätä pulmaa kehittämällä koneoppimisen ja tilastotieteen menetelmiä.

Yksityisyyden suojaavalle koneoppimiselle on kysyntää myös muualla kuin lääketieteellisessä tutkimuksessa. Sovellusmahdollisuuksia on lähes kaikilla elämänaloilla. Esimerkiksi eri tieteenalojen tutkimuksessa, puhelimien ennakoivan tekstinsyötön kehittämisessä tai vaikkapa pankkien järjestelmissä.

Meillä kaikilla on salaisuuksia

Yksityisyyden suojasta puhutaan nykyisin paljon. Honkelan mukaan syystäkin.

– Siinä on kyse perustavanlaatuisesta oikeudesta. Jo yleismaailmallinen ihmisoikeuksien julistus tähdentää, että jokaisella ihmisellä on oikeus yksityisyyteen eikä sitä saa loukata, hän huomauttaa.

Honkelan mukaan koko yhteiskunnan toimintakyky perustuu siihen, että ihmisillä on salaisuuksia, jotka pysyvät tallessa.

– Jos joku sanoo, ettei hänellä ole mitään salattavaa, hän ei ole miettinyt asiaa loppuun asti, Honkela lisää.

Voi pohtia esimerkiksi, kuuluuko sairauskuluvakuutuksia myöntävän yhtiön päästä käsiksi asiakkaidensa genomitietoihin. Tai saako työntekijöitä rekrytoiva yritys tutkia hakijoiden kirjoittamia viestejä?

Länsimaisessa demokratiassa elävän voi olla vaikea käsittää, millaisia seurauksia olisi, jos totalitäärinen valtio pääsisi käsiksi kansalaistensa yksityisyyden suojan piiriin kuuluviin tietoihin.

Konekaan ei saa syrjiä

Koneoppimisen nykyistä laajempi soveltaminen eri elämänaloille edellyttää paitsi yksityisyyden suojaan liittyvien pulmien ratkomista myös sen miettimistä, miten tekoäly voisi olla tasapuolinen.

– Jos koneoppimista hyödynnetään päätöksenteossa, meidän täytyy olla varmoja, että se ei syrji ketään heistä, joita päätöksenteko koskee, Honkela sanoo.

Maailmalla on jo nähty esimerkkejä, joissa tekoäly on tehnyt syrjiviä päätöksiä. Verkkokauppa Amazon otti tekoälyn avuksi työvoiman rekrytoinnissa. Jonkin ajan kuluttua havaittiin, että järjestelmä syrji naispuolisia hakijoita.

– Ehkä konetta opetettiin vanhalla datalla. Jos miehiä on aiemminkin palkattu enemmän, on järjestelmä voinut tulkita, että naisissa on jotain vikaa, Honkela veikkaa.

Tasapuolisuus olisi olennainen ominaisuus myös esimerkiksi pankkien lainapäätöksien tekemisessä tai erilaisten sosiaalitukien myöntämisessä.

– Meille tutkijoille nimenomaan syrjimättömyyden periaatteessa riittää työtä. Toistaiseksi ei olla yksimielisiä edes teoreettisella tasolla, miten se saataisiin osaksi koneoppimista, Honkela sanoo.

 

Esit­te­lys­sä Hi­DATAn uu­det asian­tun­ti­jat

Tässä juttusarjassa esittelemme Helsinki Centre for Data Science -tutkimuskeskuksen (HiDATA) uusia tenure track -professoreita. 

Tutustu muihin osiin:

Spatiotemporaalisen data-analyysin apulaisprofessori Laura Ruotsalainen: Ih­mis­ten liik­keet aut­ta­vat suun­nit­te­le­maan pa­rem­pia kau­pun­ke­ja

Rinnakkaisen ja hajautetun datatieteen professori Keijo Heljanko: Kas­va­vat da­ta­mas­sat voi­vat jät­tää tie­to­ko­neet jäl­keen­sä ja ai­heut­taa ener­gia­krii­sin

Tietojenkäsittelytieteen ja ilmakehätieteiden apulaisprofessori Kai Puolamäki: Da­ta­tie­de tul­kit­see il­ma­ke­hän hiuk­ka­sia ja auttaa löy­tä­mään kau­pun­gin puh­taim­mat kul­ku­rei­tit – jos osaam­me ky­syä ko­neel­ta oi­kei­ta asioi­ta

Yksityisyyttä suojaavan ja turvallisen datatieteen apulaisprofessori Nikolaj Tatti: Datatiede voi pian paljastaa valeuutisia

Koneoppimisen ja tekoälyn apulaisprofessori Dorota Głowacka: Tu­le­vai­suu­den ha­ku­ko­ne auttaa käyt­tä­jää löy­tä­mään myös sel­lai­sen tie­don, jota tämä ei tie­dä et­si­vän­sä