Lisää dataa koronaepidemian seurantaan yksityisyyttä vaarantamatta

Koronaviruksen leviämisen hillitsemiseksi tehtyjen rajoitusten purkaminen vaatii epidemiatilanteen tarkkaa seurantaa. Anonyymin tilastotiedon kerääminen kontaktien jäljityssovelluksesta tuottaisi ajantasaista tietoa epidemian leviämisen riskistä, kirjoittaa koneoppimisen ja tekoälyn apulaisprofessori Antti Honkela.

Suomi on monien muiden maiden ohella siirtymässä vaiheeseen, jossa koronaviruksen leviämisen estämiseksi asetettuja rajoituksia puretaan, mutta samalla seurataan tarkasti viruksen leviämistä. Leviämisen seuranta tapahtuu ensisijaisesti matemaattisilla malleilla, jotka perustuvat sairastuneiden määriin. Koska tartunnan saannista sairaalaan joutumiseen kuluu yleensä yli viikko, seuranta kuvastaa tartuntatilannetta viiveellä.

Koronavirustartunta leviää ensisijaisesti sairastuneen ja tartunnalle alttiin riittävän pitkän ja voimakkaan lähikontaktin aikana. Suomessa valmistellaan mobiilisovelluksen käyttöönottoa tällaisten kontaktien jäljittämiseksi. Suunnitelman mukaan sovellus jakaisi yksityisyyden turvaamiseksi keräämäänsä tietoa ainoastaan, kun sen käyttäjällä on todettu vahvistettu koronavirustartunta. Tällöin tartunnalle mahdollisesti altistuneet saisivat tiedon altistumisestaan.

Sovelluksen havaitsemista kontakteista kertyvä tilastotieto olisi hyödyllinen lisä epidemian seurantaan ja mallinnukseen, koska se antaisi ajantasaista tietoa tartuntojen taustalla olevien kontaktien määrien muutoksista. Tietosuoja ja yksityisyyden suoja ovat olleet keskeisiä eurooppalaisissa kontaktien jäljityssovelluksissa. Tilastotiedon keruu kontaktien lukumäärästä on mahdollista toteuttaa tinkimättä olennaisesti tästä tietosuojasta. Tilastotiedon keruun pitäisi olla käyttäjille vapaaehtoista ja käyttäjän suostumukseen perustuvaa.

Miten arkaluontoista tietoa voi sitten kerätä yksityisyyden suojaa kunnioittaen? Yhteiskuntatieteilijät ovat 1960-luvulta alkaen soveltaneet menetelmää, jossa vastaajia ohjeistetaan vaihtamaan kyllä/ei-kysymyksen vastaus salaa päinvastaiseksi tietyllä todennäköisyydellä. Tämä menetelmä takaa, että kenenkään vastausta ei voida päätellä varmasti – vastaaja voi aina vedota vastauksen johtuneen sattumasta. Toisaalta yhdistettäessä riittävän suuren joukon vastaukset voidaan satunnaisten vastausten vaikutus poistaa ja muodostaa tilastotieteen perusteella luotettava arvio eri vastausten osuuksista.

Vastaavaa satunnaisuuden lisäämisen periaatetta on kehitetty voimakkaasti eteenpäin tietojenkäsittelytieteissä viimeisen 15 vuoden aikana differentiaalisen tietosuojan nimellä. Alaa tutkitaan Helsingin yliopiston, Aalto-yliopiston ja VTT:n yhteisessä Suomen tekoälykeskuksessa (FCAI). Tutkijat ovat kehittäneet menetelmiä erilaisten ongelmien ratkaisemiseen tietosuojaa kunnioittaen. Suojan tasoa voidaan säätää satunnaisuuden määrää säätämällä, mutta vahvan suojan hintana on epätarkemmat tulokset. Menetelmät ovat jo laajasti arkikäytössä mm. Googlen ja Applen mobiilikäyttöjärjestelmissä sekä Yhdysvaltojen tämänvuotisessa väestönlaskennassa.

Kontaktien jäljityssovelluksen kohdalla kiinnostavaa tietoa on esimerkiksi kunkin käyttäjän päivittäisten kontaktien määrä. Tätä ei kuitenkaan pysty suoraan helposti selvittämään, koska sovellukset vaihtavat käyttäjien tunnistamiseen käytettyjä tunnisteita korkeintaan puolen tunnin välein tietosuojasyistä. Ongelmaa voi kiertää käyttämällä sen sijaan esimerkiksi suurinta lyhyehkössä aikaikkunassa kertyneiden kontaktien määrää. Käyttäjiltä voidaan lisäksi pyytää vapaaehtoisesti muuta epidemiologisten mallien kannalta hyödyllistä lisätietoa kuten karkeaa tietoa iästä tai kotimaakunnasta.

Yksi suurimmista huolista kontaktien jäljityssovelluksen osalta on, että sovelluksen tehokas toiminta vaatii suuren osan väestöstä sen käyttäjiksi. Ehdotettu tilastotiedon keruu on tässä suhteessa armollisempaa. Se tuottaa hyödyllistä tietoa jo selvästi pienemmällä käyttäjämäärällä, koska siinä ei tarvitse jäljittää kaikkia kontakteja. Lisäksi puuttuvien osuutta tilastosta voidaan korjata esimerkiksi sovelluksen tunnettujen käyttäjämäärien perusteella.