VEIL.AI mahdollistaa sensitiivisen tiedon tehokkaan hyödyntämisen

VEIL.AI on palvelu, jonka avulla yksilötasolla kerättyä ja siten potentiaalisesti sensitiivistä tietoa pystytään hyödyntämään esimerkiksi koneoppivissa ratkaisuissa, erilaisissa kaupallisissa sovelluksissa sekä tutkimus- ja kehityshankkeissa. Sovellus prosessoi tietoja niin, että kerättyjen tietoaineistojen arvo säilyy, mutta yksittäinen ihminen ei ole enää niiden perusteella tunnistettavissa. Sovellusta voidaan käyttää myös synteettisen datan tuottamiseen.

Lähtökohtana sekä tietosuojan että hyödynnettävyyden maksimointi

VEIL.AI:n kehittäjien lähtökohtana on ollut toteuttaa ratkaisu, joka maksimoi sekä tietosuojan että käsitellyn tietoaineiston hyödynnettävyyden ja minimoi aineiston muokkaamiseen tarvittavan ajan ja laskentakapasiteetin. Perinteisillä menetelmillä tietoja joudutaan usein karkeistamaan niin paljon, että aineistojen jatkohyödynnettävyys kärsii merkittävästi. Perinteiset menetelmät soveltuvat myös huonosti dynaamisten, jatkuvasti päivittyvien tietomassojen anonymisointiin.  Erityisen hankalaa perinteisille menetelmille on, jos sensitiivinen tieto tulee useasta eri organisaatiosta.

VEIL.AI hyödyntää tekoälyä ja tekee laskennallisesti raskaista de-identifikaatioon tarvittavista prosesseista nopeita.

VEIL.AI tarjoaa ratkaisuja yrityksille, julkisille toimijoille ja isoille yhteistyöhankkeille

Monet suuret yritykset keräävät asiakkaistaan runsaasti tietoa, jonka hyödyntäminen on tällä hetkellä varsin rajoitettua. Koneoppimisen menetelmiä hyödyntämällä tällaisten laajojen tietoaineistojen analysointi voi tuoda paljon arvoa yrityksille esimerkiksi uuden tyyppisiä palveluita kehitettäessä.

Monet yritykset kuitenkin kokevat tietovarantojensa hyödyntämisen liian haastavaksi tai riskialttiiksi toiminnaksi erityisesti EU:n tietosuoja-asetuksen (GDPR) vaatimusten osalta. VEIL.AI:n tarjoamilla anonymisointityökaluilla arvokkaat aineistot uskalletaan ottaa myös yrityksissä hyötykäyttöön.  

Julkisella puolella olemassa olevan tiedon hyödyntäminen esimerkiksi tiedolla johtamisessa, avoimena datana tai lain edellyttämässä niin sanotussa toisiokäytössä koetaan tärkeäksi, mutta tietolähteiden anonymiteetti täytyy turvata. VEIL.AI:ta on jo sovellettu useisiin tällaisiin vaativiin hankkeisiin.

Tutkimushankkeissa on usein oleellista pystyä hyödyntämään usean eri toimijan keräämiä tietoaineistoja. Jotta tämä onnistuisi, toimijoiden pitää yleensä joko jakaa omat tietoaineistonsa hankkeen kaikille osapuolille tai valita yksi taho hoitamaan tietojen yhdistämistä. VEIL.AI:n avulla myös useamman toimijan yhteistyöhankkeista tulee selvästi helpompia, kun niin sanotun raakadatan (käsittelemättömän tiedon) jakaminen aineistojen yhdistämiseksi ei enää ole välttämätöntä.

 

Infograph describing the VEIL.AI process, categories of sensitive data and possible use cases for these data types.

 

VEIL.AI:n anonymisointityökaluilla yksilötason tietoa voidaan joko pseudonymisoida (poistaa yksilöivät tunnisteet) tai anonymisoida pysyvästi. Lisäksi VEIL.AI:n avulla voi tuottaa synteettistä dataa. Eri  datatyyppejä voidaan hyödyntää esimerkiksi lääketutkimuksiin, kaupunkisuunnitteluun ja erilaisten ennustemallien rakentamiseen.

VEIL.AI soveltuu monenlaisen yksilötason tiedon muokkaamiseen

VEIL.AI on kehitetty Helsingin yliopiston Suomen molekyylilääketieteen instituutissa (FIMM) Janna Saarelan ja Timo Miettisen johdolla. Nykyinen tiimi koostuu heidän lisäkseen kolmesta kehittäjästä. Liiketoiminnan kehittämisestä vastaavat teknologia-alan konkari Tuomo Pentikäinen.

VEIL.AI kehittäjäryhmällä on pitkä kokemus haastavien potilasnäytteiden ja biopankkiaineistojen parissa työskentelemisestä.

– Tämän kaltaisten tutkimushankkeiden läpiviemiseksi on vaadittu uusien työkalujen kehittämistä, koska tarkoitukseen soveltuvia ei ole ollut saatavilla. FIMMin kaltaisissa lääketieteelliseen tutkimukseen keskittyvissä organisaatioissa ollaankin tietosuojan osalta useita vuosia muuta maailmaa edellä, toteaa Tuomo Pentikäinen.

Tiimin erikoisalasta huolimatta VEIL.AI:n käyttömahdollisuudet eivät kuitenkaan rajoitu vain lääketieteeseen liittyvien aineistojen käsittelyyn ja niiden perusteella tehtävään tutkimus- ja tuotekehitystyöhön, vaan ovat sovellettavissa kaikenlaiseen yksilötason tietoon. VEIL.AI:ta on sovellettu muun muassa paikkatiedon ja kuvadatan anonymisointiin.

– Eräs voimakkaasti tutkimamme kohde on mm lääkekehityksessä käytettävän synteettisen datan tuotanto, jota kehitämme Novo Nordisk Foundationin tuella, toteaa Tuomo Pentikäinen.

Tiimin erikoisalasta huolimatta VEIL.AI:n käyttömahdollisuudet eivät kuitenkaan rajoitu vain lääketieteeseen liittyvien aineistojen käsittelyyn ja niiden perusteella tehtävään tutkimus- ja tuotekehitystyöhön, vaan ovat sovellettavissa kaikenlaiseen yksilötason tietoon.

Graafi esittää, miten hyvin VEIL.AI:n tuottama synteettinen data vastaa ominaisuuksiltaan alkuperäistä dataa.

 

VEIL.AI kykenee tuottamaan synteettistä dataa, joka käyttäytyy hyvin samankaltaisesti kuin alkuperäinen data. Kuvassa on vertailtu aitoa tutkimusdataa (vihreä jakauma) ja VEIL.AI:lla tuotettua synteettistä dataa (keltainen jakauma).

VEIL.AI:n kaupallistamista selvitettiin 2018-19  Business Finlandin Tutkimuksesta uutta liiketoimintaa –rahoituksen avulla. 2019 käynnistyi EIT Digitalin rahoittaman innovaatiohanke, jossa VEIL.AI:n kumppaneina toimivat Philips Hollannista ja SciLifeLab Ruotsista. VEIL.AI:n keskeisestä teknologiasta on myös jätetty patenttihakemus.

– FIMMin ja VEIL.AI-tiimin lähestymistapa on täysin uudenlainen. Toteutamme yhteistä tutkimushanketta, jossa tuotetaan synteettistä dataa ja kehitetään sen laatuun ja käytettävyyteen liittyviä mittareita. Tavoitteena on testata synteettisen datan hyödyntämistä tyypillisesti data-intensiivisissä terveysteknologia- ja lääkekehityskehityshankkeissa. Tavoitteenamme on nopeuttaa merkittävästi R&D-vaihetta, vähentää tai jopa poistaa tietovuotojen riski ja parantaa datan laatua, sanoo professori Henning Langberg Kööpenhaminan HealthTech klusterista ja Kööpenhaminan yliopistosta.

Artikkeli on julkaistu ensimmäisen kerran 23.11.2018 ja päivitetty 25.10.2019