Pidä huolta datanhallinnan osaamisestasi. Datanhallinnan taidot ovat tutkijan perustaitoja. Yhdessä aineistonhallinnan suunnittelun kanssa ne varmistavat, että tutkija tunnistaa ja hallitsee aineiston käsittelyyn liittyvät riskit (esim. tietosuoja, tietoturva, aineiston käyttöoikeudet, aineiston säilytys). Helsingin yliopiston Datatuki järjestää tutkijoille maksutonta datanhallinnan koulutusta. Datatuki myös ohjeistaa ja kouluttaa sekä tarjoaa työkaluja aineistonhallinnan suunnitteluun.
Tämä opas käsittelee viranomaisten hallinnon ja suunnittelun tarpeisiin keräämiä yksilötasoisia rekisteriaineistoja, joita ei alun perin ole kerätty tutkimuskäyttöä varten. Aineistoja ylläpitävät rekisterinviranomaiset, joista keskeisimpiä ovat Tilastokeskus sekä toisiolain alaiset julkiset rekisteriviranomaiset, jotka on listattu Findatan verkkosivulle. Findata on tietolupaviranomainen, jonka kautta toisiolain alaisia, eli sosiaali- ja terveysalan, rekisteritietoja voi hakea. Muita kuin toisiolain alaisia rekisteritietoja haetaan kultakin rekisteriviranomaiselta erikseen (esim. Tilastokeskus, Opetushallitus, Digi- ja väestötietovirasto, Puolustusvoimat, Oikeusrekisterikeskus, ORK). Yksilötasoisia rekisteritietoja voi käyttää tutkimukseen joko sellaisinaan tai niitä voi yhdistää muihin tietoihin, kuten kyselyihin (ks. ”Rekisteriaineistojen yhdistäminen kyselyihin -ohje”). Yksilötasoisten tietojen yhdistely eri rekistereiden sekä muiden tietolähteiden välillä on mahdollista henkilötunnuksella, joka yksilöi kaikki Suomessa vakituisesti asuvat henkilöt.
Rekisteriaineistojen hallinta vaatii suunnittelua etäkäytöstä huolimatta. Yksilötasoiset rekisteriaineistot sisältävät usein henkilötietoja, joista yksilöt ovat tunnistettavissa. Suurimmat rekisteriviranomaiset (Tilastokeskus, Findata) eivät luovuta yksilötasoisia aineistoja tutkijoille, vaan tarjoavat mahdollisuuden pseudonymisoitujen aineistojen käsittelyyn etäyhteydellä omassa tietoturvallisessa käyttöympäristössään (Tilastokeskuksen Fiona, Findatan Kapseli). Näissä tilanteissa monet aineistonhallinnan yksityiskohdat ovat rekisteriviranomaisten vastuulla. Tutkija siis toteuttaa osaltaan vastuullista datanhallintaa noudattamalla etäkäyttöjärjestelmän tietosuojasääntöjä. Näissäkin tilanteissa rekisteriaineistojen käyttöön liittyy kuitenkin huomioitavia asioita, kuten riittävät ajalliset ja rahalliset resurssit – näiden huomioiminen on tärkeää jo aineistonhallintasuunnitelmaa (data management plan, DMP) tehdessä.
Henkilötietojen ja sensitiivisten tietojen käsittely suunniteltava tarkkaan. Henkilötietojen ja sensitiivisten tietojen kohdalla tulee arvioida aineiston käsittelyyn liittyvät riskit, toisin sanoen, kuinka isoa haittaa tietojen paljastumisesta voi olla yksilölle tai yhteisölle. Hyvä työkalu riskitason arviointiin on aineiston käsittelyn vaikutusten arvioinnin (data processing impact assessment, DPIA) tekeminen. Aineiston käsittelyä suunnitellessa on erityisen tärkeää tunnistaa, missä kohtaa käsittelyä voi olla riskejä, esimerkiksi mahdollisuus aineiston vuotamiselle ulkopuolisille. Tässä on tärkeää huomioida kaikkien aineistoa käsittelevien huolellinen perehdytys. Huolellinen käsittely koskee myös aineistojen etäkäyttöä. Tärkeää on myös turvallisten säilytyspaikkojen valinta (ks. ”Aineiston säilytys projektin aikana”). Yhdistettäessä rekisteriaineistoja esimerkiksi kyselyaineistoihin kannattaa varata aikaa juristien konsultoimiseen.
Varaa riittävästi aikaa hakuprosessiin ja huomioi kustannukset. Rekisteriaineistolla tehtävän tutkimuksen suunnittelussa keskeistä huomioitavaa on sekä ajallisten että taloudellisten resurssien riittävyys. Tilastoviranomaisten aikataulut ja hankintakulut on syytä selvittää jo tutkimuksen suunnitteluvaiheessa. Aineistojen hakuprosessit ovat tyypillisesti hitaita (usein yli vuoden mittaisia). Aineistojen hankinta- ja käyttökustannukset kasvavat jatkuvasti. Hinnat ja aikataulut riippuvat aineistojen laajuudesta, monimutkaisuudesta ja aineistoa käyttävän tutkimusryhmän koosta sekä siitä kuinka monta rekisteriviranomaista on mukana prosessissa. Hinta muodostuu käyttöluvista, aineiston muodostamisesta ja mahdollisista etäkäyttöjärjestelmän käyttökustannuksista. Suurimmat rekisteriviranomaiset julkaisevat sivuillaan hinta- ja aikatauluarvioita tyypillisiä aineistoja koskien: Tilastokeskuksen aikatauluarviot ja hinnoittelu; Findatan jonotilanne ja hinnoittelu. Tarkista oman kotiorganisaation käytännöt kustannusten kattamisen osalta – tietyt tiedekunnat ovat varanneet budjettiinsa rahaa aineistojen käyttöoikeuksien maksamiseen.
Tutkimusyhteistyön tekeminen säästää resursseja. Pitkien lupaprosessien ja aineistojen hintojen vuoksi rekisteriaineistojen käyttö kannattaa mahdollisuuksien mukaan aloittaa jo olemassa olevien tutkimushankkeiden puitteissa tutkimusyhteistyötä tehden. Tutkimusryhmillä käytössä oleviin aineistoihin on mahdollista hakea käyttölupia uusille tutkijoille. Yhteistyömahdollisuuksista ja aineistoja jo hyödyntävistä muista tutkijoista voi kysellä tietoja omasta kotiorganisaatiostaan ja samaa alaa tutkivilta kollegoilta.
Rekisteriaineistoihin liittyvä lainsäädäntö. Yksilötasoisia rekisteritietoja voi käyttää joko sellaisinaan tai niitä voi yhdistää muihin tietoihin, kuten kyselyihin. Pelkästään rekisteritietoihin perustuvia aineistoja ja muihin tietoihin linkattuja aineistoja koskevat erilaiset datanhallinnan säännökset ja periaatteet.
(Ks. esim. toisiolaki eli Laki sosiaali- ja terveystietojen toissijaisesta käytöstä; Flamma-sivu: Sosiaali- ja terveystietojen, ns. sote-tiedot, toisiokäyttö tutkimuksessa).
Viranomaistietoihin perustuvia ryhmätasoisia tilastotietoja (kuten määriä, keskiarvoja jne.) koskevat omat datahallinnan säännökset ja periaatteet (Laki tilastokeskuksesta).
Rekisteriaineistoihin perustuva tutkimus ei edellytä informointia. Pelkästään rekisteriaineistoihin perustuvaan tutkimukseen ei tarvita tutkittavien informointia. Rekisteriaineistojen kohdalla ei voi olettaa, että kohtuullisella vaivalla tavoitetaan rekisterissä olevat ihmiset, esimerkiksi koko Suomen väestö. Tilanne muuttuu, jos tietyn rekisterin tietoihin yhdistetään muita tietoja; esimerkiksi kyselyyn yhdistäminen edellyttää informointia.
Ota huomioon, että rekisteriaineisto on usein sensitiivistä. Luvanvaraisissa rekisteriaineistoissa tiedot ovat usein yksilötasolla, ja tällainen aineisto on sensitiivistä. Aineiston käyttöluvan saadakseen tutkijan on tutustuttava ja sitouduttava rekisteriviranomaisten tietoturvasäännöksiin. Vaikka dataa käsiteltäisiin etäkäyttöjärjestelmässä, tutkijalla on vastuu aineiston käsittelystä. Tutkija toteuttaa osaltaan vastuullista datanhallintaa etäkäyttöjärjestelmän sääntöjä noudattamalla.
Tutkijalta edellytetään rekisterinpitäjänä vastuullista datanhallintaa. Rekisteritutkimusta tehdessä joko tutkija tai tutkimusta toteuttava organisaatio on myös rekisterinpitäjä, jolta edellytetään vastuullista datanhallintaa: ”Rekisterinpitäjä päättää aineiston käsittelystä, vastaa henkilötietojen käsittelyn turvallisuudesta ja tarkoituksenmukaisuudesta sekä aineiston asianmukaisesta hävittämisestä tai arkistoinnista tutkimuksen päättyessä. Tutkijan ollessa työ-, virka- tai palvelusuhteessa tutkimusta toteuttavassa organisaatiossa rekisterinpitäjänä toimii tutkimusta toteuttava organisaatio. Tutkijan tai tutkimusryhmän tehdessä tutkimustyötä itsenäisesti voivat tutkija tai tutkimusryhmä toimia rekisterinpitäjinä itse." (Findatan UKK: Mitä tarkoitetaan rekisterinpitäjällä?; ks . myös Tilastokeskus: ”Käyttöoikeuden haltija rekisterinpitäjänä”).
Rekisteriaineistoihin perustuva tutkimus ei aina edellytä ennakkoarviointia. Pelkästään rekisteriaineistoihin perustuvaan tutkimukseen ei tarvita eettistä ennakkoarviointia: ”Eettisen toimikunnan arviointia ei edellytetä julkisten ja julkistettujen tietojen, rekisteri- ja asiakirja-aineistojen ja arkistoaineistojen tutkimukseen." (Ks. Ihmiseen kohdistuvan tutkimuksen eettiset periaatteet ja ihmistieteiden eettinen ennakkoarviointi Suomessa. Tutkimuseettisen neuvottelukunnan ohje, 2019: 16). Tilanne voi muuttua, jos tietyn rekisterin tietoihin yhdistetään muita tietoja, esimerkiksi kyselyaineistoja. Tällöin tutkimukselta voidaan edellyttää eettistä ennakkoarviointia. Eettisestä ennakkoarvioinnista on kerätty tietoa Helsingin yliopiston sivulle. HSSH-instituutti voi auttaa eettisen ennakkoarviointitoimikunnan lausunnon pyytämisessä. Tietyissä tapauksissa eettistä lupaa pitää hakea sekä rekisteriviranomaiselta että kotiorganisaatiolta. Odotusajat lupien käsittelyssä saattavat olla pitkiä. Jonoon kannattaa ilmoittautua ajoissa.
Rekisteriaineiston tuottavat ja tarjoavat tutkimuskäyttöön rekisteriviranomaiset. Tutkija ei kerää näitä aineistoja, vaan määrittelee aineistolupahakemuksessaan, mitä rekisteriaineistoja hän tutkimuksessaan tarvitsee. Hakemukseen liitetään myös muuttujaluettelo sekä tutkimussuunnitelma, jossa haettavien aineistojen tutkimuskäyttö perustellaan. Käyttöön haettaville aineistoille on myös syytä hakea riittävän pitkä käyttöaika, jotta esimerkiksi tutkimuksen verifiointi tai hankkeen tutkimusjulkaisujen arviointikierrokset ehditään järjestää, ennen aineistojen tuhoamista.
KS erilliset ohjeet Rekisteriaineistojen hakemisesta ja Rekisteriaineistojen yhdistäminen kyselyaineistoihin
Rekisteriaineiston hakeminen -ohje
Rekisteriaineistojen yhdistäminen kyselyihin -ohje:
Rekisteriaineistojen säilytys ja käsittely etäkäyttöjärjestelmässä. Rekisteriaineistoja ei voi siirtää käsittelyä varten pois rekisterin ylläpitäjän tarjoamasta etäkäyttöjärjestelmästä. Tilastokeskuksen etäkäyttöjärjestelmän käytölle on maakohtaisia rajoituksia, eikä se ole mahdollista esim. Yhdysvalloista. Tilastokeskuksen Fionan ja Findatan Kapselin käyttöympäristöt ovat Tieteen tietotekniikan keskus CSC:n tuottamia. Eri järjestelmissä on omat ohjelmansa aineiston käsittelyyn ja niihin voi myös pyytää asentamaan omia analyysityökaluja ja -koodeja. Etäkäyttöjärjestelmässä kaikilla samaan aineistoon käyttöluvan saaneilla projektin tutkijoilla on pääsy tutkimusprojektin kaikkeen aineistoon. Jos pääsyä on tarpeen rajoittaa, projekti on jaettava pienempiin projekteihin. Projektin sisältä kansioita ei pysty hallitsemaan: etäkäyttöjärjestelmässä kaikki pääsevät myös toistensa työkansioihin.
Etäkäytössä olevaa rekisteriaineistoa ei luovuteta ulos järjestelmästä, tuotettuja analyysituloksia saa tietyin ehdoin. Itse rekisteriaineisto pysyy rekisterin ylläpitäjän suljetussa ympäristössä, mutta etäkäyttöjärjestelmästä saa ulos ryhmiä koskevia analyysituloksia, kuten ryhmäkeskiarvoja, regressiokertoimia jne. Ulos tilattavat tulosteet käyvät läpi tietosuojatarkastusprosessin, ennen kuin ne lähetetään tutkijalle (ks. Tarkastusprosessista esim: ”Mikroaineistojen käyttö FIONAssa”).
Ota huomioon etäkäyttöjärjestelmien rajallinen kapasiteetti aineiston käsittelyyn. Rekisteriaineistot ovat usein suuria, jopa miljoonia havaintoja ja satoja muuttujia sisältäviä kokonaisuuksia. Paljon muistia vaativissa analyyseissa ja jopa analyysiaineistojen säilyttämisessä etäkäyttöjärjestelmän rajat voivat tulla nopeasti vastaan (esim. Tilastokeskuksen järjestelmässä käyttömaksut on porrastettu sen mukaan, kuinka tehokas kone on käytössä). Datanhallinnassa on hyvä tiedostaa jo etukäteen rajalliseen käsittelykapasiteettiin liittyvät työskentelyn ongelmat, ja sopia samaa aineistoa käyttävän tutkimusryhmän kesken esimerkiksi analyysin välivaiheiden tuhoamiseen liittyvistä käytännöistä.
Varaa runsaasti aikaa aineistojen esikäsittelyyn ja yhdistelyyn. Viranomaistietoihin perustuvat rekisteriaineistot ovat usein ns. raakadataa, joka sopii paremmin hallinnon tarpeisiin ja tietojärjestelmiin kuin tutkimukseen. Raakadatan muokkaaminen tutkimusaineistoksi esimerkiksi tutkimusväestöä ja tutkimusjaksoa rajaamalla, tietoja eri lähteistä yhdistämällä ja tutkimuksen käsitteitä olemassa oleviksi tiedoiksi operationalisoimalla on hidasta ja paljon päätöksiä edellyttävää käsityötä. Myös eri rekisteritietojen kertymisen prosesseja ja rekisteritietojen saatavuutta ja laatua, sekä näiden mahdollisia muutoksia ajassa täytyy monesti selvittää rekisteriviranomaisilta erikseen. Tässä tutkimusyhteistyöstä on usein apua, sillä monet rekisteritutkijat painivat samanlaisten kysymysten parissa ja ratkaisuihin voi saada ideoita ja neuvoja muilta.
Kuvaa tutkimusjulkaisussa, mitä valmisaineistoja on käytetty. Rekisteritutkimuksen tutkimusjulkaisuissa kuvataan tyypillisesti analyysiaineisto, mutta ei raaka-aineistoa. Tutkimuksen toistettavuuden ja avoimen tieteen kannalta hyvä käytäntö voisi olla raportoida, mistä rekistereistä tai valmismoduuleista saatuja tietoja analyysiaineiston muodostamisessa on käytetty sekä mitä analyysimenetelmiä on käytetty aineiston valmisteluun. Aineiston raportointi muuttuja- ja rekisteritasolla on myös suositeltavaa, koska valmisaineistojen sisältö muuttuu ajassa ja tutkimuksen tarkastelijan tai aineistojen jatkokäyttäjän on hankala jälkikäteen selvittää, millainen valmisaineisto tutkijalla on ollut käytössä tutkimuksen toteutuksen ajankohtana.
Etäkäyttöaineistojen ja luovutettujen aineistojen säilytyksessä on eroa. Tilastokeskuksen ja Findatan aineistojen säilytys tapahtuu etäkäyttöympäristöissä, jotka ovat Tieteen tietotekniikan keskus CSC:n tuottamia. Tutkijoille omaan organisaatioon luovutetut aineistot tulee säilyttää tietoturvallisessa ympäristössä, joista vaihtoehtoina on yliopiston oma umpio-järjestelmä tai tiedot voidaan säilyttää esimerkiksi suojatuilla tallennusvälineillä. Yliopiston tarjoamalla ryhmätyötilalla ei saa säilyttää henkilötietoja sisältävää dataa, vaikka kansioihin pääsyä onkin mahdollista rajoittaa. Tutkijan on selvitettävä, miten aineisto siirretään rekisterinpitäjältä itselle ja miten varmistetaan turvallinen tiedonsiirto ja säilytys.
Mahdollinen aineiston käsittely ja säilytys HY:n käyttöympäristöissä. Aineistoa on hyvä säilyttää ja käsitellä pseudonymisoituna ja kryptattuna. Yliopistolaisten käytössä olevat koti- (Z:) ja ryhmähakemisto (P:) sopivat matalan ja keskitason riskin aineistolle, joka on pseudonymisoitu. Pseudonymisointiavaimet pitää säilyttää aina kryptattuna muussa tallennuspaikassa, erillään varsinaisesta datasta. Korkean riskin tunnisteellista tietoa tulee säilyttää Umpiossa, joka on HY:n tietoturvallinen käyttöympäristö (Umpio). Helpdeskin datan tallennustaulukosta voi vielä erikseen tarkistaa, mitkä tallennuspaikat sopivat sensitiiviselle datalle. Myös Helpdeskin ohjeista löytyy lisätietoja sensitiivisen datan käsittelyyn.
Etäkäytössä olevien rekisteriaineistojen säilytyksestä vastaa rekisterin ylläpitäjä. Kun aineiston käyttölupa päättyy, aineistojen käyttö tutkijan osalta loppuu. Rekisteriviranomaisen etäkäyttöjärjestelmässä olevan aineiston säilytys tai hävittäminen ei ole tutkijan vastuulla. Tutkijan vastuulla on kuitenkin ottaa talteen etäkäyttöjärjestelmässä olevat ohjelmakoodit ja tulokset tutkimuksen dokumentoimiseksi ja toistettavuuden takaamiseksi.
Luovutettujen aineistojen säilyttämisestä ja hävittämisestä vastaa tutkija. Hyödynnä yliopiston palveluja aineiston säilyttämisessä. Tutkimusprojektin aikana aineistoa voi säilyttää omassa kotihakemistossa (jos käyttää aineistoa yksin) tai ryhmähakemistossa. Ohjeita erilaisiin käyttötarkoituksiin soveltuvista säilytysratkaisuista löytyy Helsingin yliopiston Datatuen wikisivun taulukosta. Dokumentoi itsellesi ja ryhmällesi, missä dataa säilytetään, jotta voit esimerkiksi tarvittaessa tuhota kaiken sen datan, jonka olet luvannut tuhota.
Helsingin yliopiston kotihakemistot ja ryhmähakemistot varmuuskopioidaan joka tunti ja ne toimivat Windows-, Mac- ja Linux-käyttöjärjestelmissä. Kotihakemistot ja ryhmähakemistot sijaitsevat yliopiston omilla palvelimilla. Kaikilla yliopistolaisilla on käytössään kotihakemisto (z-asema Windows-koneilla). Ohjeet ryhmähakemiston hankintaan. Jos aineisto on arkaluonteista, sille sopiva tallennuspaikka Helsingin yliopistossa on Umpio.
Aineiston käyttöluvan päättyessä aineisto tulee hävittää tietoturvallisesti. Etenkin arkaluonteisten aineistojen hävittämisessä tulee tiedostojen kohdalla noudattaa Helpdeskin ohjeistusta. Fyysiset tallennusmediat, kuten ulkoiset kovalevyt tai CD-levyt voidaan rikkoa; esim. rikottua CD-levyä on mahdotonta korjata. CD-levyjen hävittämiseen löytyy myös omia laatikoita, joita voi tiedustella tilapalveluista. Myös IT-lähitukea (helpdesk@helsinki.fi) voi aina pyytää hoitamaan hävityksen, mikäli on epävarma tai kyseessä on hyvin sensitiivinen aineisto.
Rekisteriaineistoista johdetut tulokset päätyvät yleensä tutkimusjulkaisuun. Tulokset perustuvat tilastollisiin analyyseihin aineistosta, mutta ne eivät sisällä yksilökohtaista dataa. Tulokset julkaistaan usein artikkelin yhteydessä. Myös julkaisemattomia kuvailevia tuloksia voi olla aiheellista säilyttää tehdyn tutkimuksen dokumentoinniksi.
Rekisteriaineistojen analyysikoodit voi säilyttää ja julkaista. Rekisteriaineistojen prosessoinnissa käytetyt ohjelmakoodit jäävät tutkijalle, ja lehdet voivat edellyttää niitä julkaistavaksi osana tutkimusjulkaisua. Analyysikoodit ovat tekstitiedostoja, jotka mahdollistavat palaamisen tutkimukseen tarvittaessa. Ohjelmakoodien julkaiseminen tukee tutkimuksen toistettavuutta, ja sitä voikin pitää hyvänä tieteellisenä käytäntönä. Julkaisua varten ohjelmakoodit kannattaa tallentaa Zenodoon ja linkittää GitHubiin. Zenodossa ne saavat pysyvän tunnisteen ja ovat paremmassa tallessa myös tutkijan omaa myöhempää käyttöä varten. Ohjelmakoodien ja algoritmien lisenssinä käytetään MIT- tai GNU-lisenssiä (ks. ”Mikä lisenssi sopii ohjelmistoille tai datalle”).
Analyysikoodien kuvailu edistää jatkokäyttöä. Ohjelmakoodit on tarpeen kuvata riittävällä tarkkuudella. Jonkinlainen yleisdokumentaatio on aina tarpeen, mutta toiset tutkijat eivät välttämättä tarvitse jokaisen käskyn avaavaa yksityiskohtaista selostusta joka riville. Muille samanlaisia tilastoanalyyseja tekeville tutkijoille ainakin osa ohjelmakoodista on luettavissa ja ymmärrettävissä myös ilman rivikohtaista dokumentaatiota.
PDF-versio lisätään pian.