Aineisto-opas: Rekisteriaineistot

Tämä opas käsittelee viranomaisten hallinnon ja suunnittelun tarpeisiin keräämiä yksilötasoisia rekisteriaineistoja, joita ei alun perin ole kerätty tutkimuskäyttöä varten.

Pidä huolta datanhallinnan osaamisestasi. Datanhallinnan taidot ovat tutkijan perustaitoja. Yhdessä aineistonhallinnan suunnittelun kanssa ne varmistavat, että tutkija tunnistaa ja hallitsee aineiston käsittelyyn liittyvät riskit (esim. tietosuoja, tietoturva, aineiston käyttöoikeudet, aineiston säilytys). Helsingin yliopiston Datatuki järjestää tutkijoille maksutonta datanhallinnan koulutusta. Datatuki myös ohjeistaa ja kouluttaa sekä tarjoaa työkaluja aineistonhallinnan suunnitteluun.

Tämä opas käsittelee viranomaisten hallinnon ja suunnittelun tarpeisiin keräämiä yksilötasoisia rekisteriaineistoja, joita ei alun perin ole kerätty tutkimuskäyttöä varten. Aineistoja ylläpitävät rekisterinviranomaiset, joista keskeisimpiä ovat Tilastokeskus https://tilastokeskus.fi/tup/mikroaineistot/index.html sekä toisiolain alaiset julkiset rekisteriviranomaiset, jotka on listattu Findatan verkkosivulle https://findata.fi/aineistot/#mita-aineistoja-findatan-kautta-on-saatavilla. Findata on tietolupaviranomainen, jonka kautta toisiolain alaisia, eli sosiaali- ja terveysalan, rekisteritietoja voi hakea. Muita kuin toisiolain alaisia rekisteritietoja haetaan kultakin rekisteriviranomaiselta erikseen (esim. Tilastokeskus, Opetushallitus, Digi- ja väestötietovirasto, Puolustusvoimat, Oikeusrekisterikeskus, ORK). Yksilötasoisia rekisteritietoja voi käyttää tutkimukseen joko sellaisinaan tai niitä voi yhdistää muihin tietoihin, kuten kyselyihin (ks. ”Rekisteriaineistojen yhdistäminen kyselyihin -ohje”). Yksilötasoisten tietojen yhdistely eri rekistereiden sekä muiden tietolähteiden välillä on mahdollista henkilötunnuksella, joka yksilöi kaikki Suomessa vakituisesti asuvat henkilöt.

Rekisteriaineistojen hallinta vaatii suunnittelua etäkäytöstä huolimatta. Yksilötasoiset rekisteriaineistot sisältävät usein henkilötietoja, joista yksilöt ovat tunnistettavissa. Suurimmat rekisteriviranomaiset (Tilastokeskus, Findata) eivät luovuta yksilötasoisia aineistoja tutkijoille, vaan tarjoavat mahdollisuuden pseudonymisoitujen aineistojen käsittelyyn etäyhteydellä omassa tietoturvallisessa käyttöympäristössään (Tilastokeskuksen Fiona, Findatan Kapseli). Näissä tilanteissa monet aineistonhallinnan yksityiskohdat ovat rekisteriviranomaisten vastuulla. Tutkija siis toteuttaa osaltaan vastuullista datanhallintaa noudattamalla etäkäyttöjärjestelmän tietosuojasääntöjä. Näissäkin tilanteissa rekisteriaineistojen käyttöön liittyy kuitenkin huomioitavia asioita, kuten riittävät ajalliset ja rahalliset resurssit – näiden huomioiminen on tärkeää jo aineistonhallintasuunnitelmaa (data management plan, DMP) tehdessä.

Henkilötietojen ja sensitiivisten tietojen käsittely suunniteltava tarkkaan. Henkilötietojen ja sensitiivisten tietojen kohdalla tulee arvioida aineiston käsittelyyn liittyvät riskit, toisin sanoen, kuinka isoa haittaa tietojen paljastumisesta voi olla yksilölle tai yhteisölle. Hyvä työkalu riskitason arviointiin on aineiston käsittelyn vaikutusten arvioinnin (data processing impact assessment, DPIA) tekeminen. Aineiston käsittelyä suunnitellessa on erityisen tärkeää tunnistaa, missä kohtaa käsittelyä voi olla riskejä, esimerkiksi mahdollisuus aineiston vuotamiselle ulkopuolisille. Tässä on tärkeää huomioida kaikkien aineistoa käsittelevien huolellinen perehdytys. Huolellinen käsittely koskee myös aineistojen etäkäyttöä. Tärkeää on myös turvallisten säilytyspaikkojen valinta (ks. ”Aineiston säilytys projektin aikana”). Yhdistettäessä rekisteriaineistoja esimerkiksi kyselyaineistoihin kannattaa varata aikaa juristien konsultoimiseen.

Varaa riittävästi aikaa hakuprosessiin ja huomioi kustannukset. Rekisteriaineistolla tehtävän tutkimuksen suunnittelussa keskeistä huomioitavaa on sekä ajallisten että taloudellisten resurssien riittävyys. Tilastoviranomaisten aikataulut ja hankintakulut on syytä selvittää jo tutkimuksen suunnitteluvaiheessa. Aineistojen hakuprosessit ovat tyypillisesti hitaita (usein yli vuoden mittaisia). Aineistojen hankinta- ja käyttökustannukset kasvavat jatkuvasti. Hinnat ja aikataulut riippuvat aineistojen laajuudesta, monimutkaisuudesta ja aineistoa käyttävän tutkimusryhmän koosta sekä siitä kuinka monta rekisteriviranomaista on mukana prosessissa. Hinta muodostuu käyttöluvista, aineiston muodostamisesta ja mahdollisista etäkäyttöjärjestelmän käyttökustannuksista. Suurimmat rekisteriviranomaiset julkaisevat sivuillaan hinta- ja aikatauluarvioita tyypillisiä aineistoja koskien: Tilastokeskuksen aikatauluarviot https://tilastokeskus.fi/tup/mikroaineistot/index.html ja hinnoittelu https://tilastokeskus.fi/tup/mikroaineistot/aineistojen-ja-palveluiden-hinnat.html; Findatan jonotilanne https://findata.fi/#stats ja hinnoittelu https://findata.fi/hinnasto/. Tarkista oman kotiorganisaation käytännöt kustannusten kattamisen osalta – tietyt tiedekunnat ovat varanneet budjettiinsa rahaa aineistojen käyttöoikeuksien maksamiseen.

Tutkimusyhteistyön tekeminen säästää resursseja. Pitkien lupaprosessien ja aineistojen hintojen vuoksi rekisteriaineistojen käyttö kannattaa mahdollisuuksien mukaan aloittaa jo olemassa olevien tutkimushankkeiden puitteissa tutkimusyhteistyötä tehden. Tutkimusryhmillä käytössä oleviin aineistoihin on mahdollista hakea käyttölupia uusille tutkijoille. Yhteistyömahdollisuuksista ja aineistoja jo hyödyntävistä muista tutkijoista voi kysellä tietoja omasta kotiorganisaatiostaan ja samaa alaa tutkivilta kollegoilta.

Rekisteriaineistoihin liittyvä lainsäädäntö. Yksilötasoisia rekisteritietoja voi käyttää joko sellaisinaan tai niitä voi yhdistää muihin tietoihin, kuten kyselyihin. Pelkästään rekisteritietoihin perustuvia aineistoja ja muihin tietoihin linkattuja aineistoja koskevat erilaiset datanhallinnan säännökset ja periaatteet.

(ks esim. toisiolaki eli Laki sosiaali- ja terveystietojen toissijaisesta käytöstä https://www.finlex.fi/fi/laki/alkup/2019/20190552; Flamma-sivu: Sosiaali- ja terveystietojen, ns. sote-tiedot, toisiokäyttö tutkimuksessa: https://flamma.helsinki.fi/s/9YASA).

Viranomaistietoihin perustuvia ryhmätasoisia tilastotietoja (kuten määriä, keskiarvoja jne.) koskevat omat datahallinnan säännökset ja periaatteet (Laki tilastokeskuksesta https://finlex.fi/fi/laki/ajantasa/1992/19920048).

Rekisteriaineistoihin perustuva tutkimus ei edellytä informointia. Pelkästään rekisteriaineistoihin perustuvaan tutkimukseen ei tarvita tutkittavien informointia. Rekisteriaineistojen kohdalla ei voi olettaa, että kohtuullisella vaivalla tavoitetaan rekisterissä olevat ihmiset, esimerkiksi koko Suomen väestö. Tilanne muuttuu, jos tietyn rekisterin tietoihin yhdistetään muita tietoja; esimerkiksi kyselyyn yhdistäminen edellyttää informointia.

Ota huomioon, että rekisteriaineisto on usein sensitiivistä. Luvanvaraisissa rekisteriaineistoissa tiedot ovat usein yksilötasolla, ja tällainen aineisto on sensitiivistä. Aineiston käyttöluvan saadakseen tutkijan on tutustuttava ja sitouduttava rekisteriviranomaisten tietoturvasäännöksiin. Vaikka dataa käsiteltäisiin etäkäyttöjärjestelmässä, tutkijalla on vastuu aineiston käsittelystä. Tutkija toteuttaa osaltaan vastuullista datanhallintaa etäkäyttöjärjestelmän sääntöjä noudattamalla.

Tutkijalta edellytetään rekisterinpitäjänä vastuullista datanhallintaa. Rekisteritutkimusta tehdessä joko tutkija tai tutkimusta toteuttava organisaatio on myös rekisterinpitäjä, jolta edellytetään vastuullista datanhallintaa: ”Rekisterinpitäjä päättää aineiston käsittelystä, vastaa henkilötietojen käsittelyn turvallisuudesta ja tarkoituksenmukaisuudesta sekä aineiston asianmukaisesta hävittämisestä tai arkistoinnista tutkimuksen päättyessä. Tutkijan ollessa työ-, virka- tai palvelusuhteessa tutkimusta toteuttavassa organisaatiossa rekisterinpitäjänä toimii tutkimusta toteuttava organisaatio. Tutkijan tai tutkimusryhmän tehdessä tutkimustyötä itsenäisesti voivat tutkija tai tutkimusryhmä toimia rekisterinpitäjinä itse." (Findatan UKK: Mitä tarkoitetaan rekisterinpitäjällä? https://findata.fi/aineistot/#ukk; ks . myös Tilastokeskus: ”Käyttöoikeuden haltija rekisterinpitäjänä” https://tilastokeskus.fi/tup/mikroaineistot/ohjeita_tutkijalle.html)

Rekisteriaineistoihin perustuva tutkimus ei aina edellytä ennakkoarviointia. Pelkästään rekisteriaineistoihin perustuvaan tutkimukseen ei tarvita eettistä ennakkoarviointia: ”Eettisen toimikunnan arviointia ei edellytetä julkisten ja julkistettujen tietojen, rekisteri- ja asiakirja-aineistojen ja arkistoaineistojen tutkimukseen." (Ks. Ihmiseen kohdistuvan tutkimuksen eettiset periaatteet ja ihmistieteiden eettinen ennakkoarviointi Suomessa. Tutkimuseettisen neuvottelukunnan ohje, 2019: 16 https://tenk.fi/sites/default/files/2021-01/Ihmistieteiden_eettisen_ennakkoarvioinnin_ohje_2020.pdf). Tilanne voi muuttua, jos tietyn rekisterin tietoihin yhdistetään muita tietoja, esimerkiksi kyselyaineistoja. Tällöin tutkimukselta voidaan edellyttää eettistä ennakkoarviointia. Eettisestä ennakkoarvioinnista on kerätty tietoa Helsingin yliopiston sivulle: https://www.helsinki.fi/fi/tutkimus/palvelut-tutkijoille/tutkimuksen-eettinen-ennakkoarviointi/ihmistieteet. HSSH-instituutti voi auttaa eettisen ennakkoarviointitoimikunnan lausunnon pyytämisessä. Tietyissä tapauksissa eettistä lupaa pitää hakea sekä rekisteriviranomaiselta että kotiorganisaatiolta. Odotusajat lupien käsittelyssä saattavat olla pitkiä. Jonoon kannattaa ilmoittautua ajoissa.

Rekisteriaineiston tuottavat ja tarjoavat tutkimuskäyttöön rekisteriviranomaiset. Tutkija ei kerää näitä aineistoja, vaan määrittelee aineistolupahakemuksessaan, mitä rekisteriaineistoja hän tutkimuksessaan tarvitsee. Hakemukseen liitetään myös muuttujaluettelo sekä tutkimussuunnitelma, jossa haettavien aineistojen tutkimuskäyttö perustellaan. Käyttöön haettaville aineistoille on myös syytä hakea riittävän pitkä käyttöaika, jotta esimerkiksi tutkimuksen verifiointi tai hankkeen tutkimusjulkaisujen arviointikierrokset ehditään järjestää, ennen aineistojen tuhoamista.

KS erilliset ohjeet Rekisteriaineistojen hakemisesta ja Rekisteriaineistojen yhdistäminen kyselyaineistoihin

 

Rekisteriaineiston hakeminen -ohje

  • Lupaa rekisteriaineistojen käyttöön haetaan rekisteriviranomaiselta. Findatan sivulla on hyvät perusohjeet rekisteriaineistojen hakuun https://findata.fi/aineistot/ ja myös Tilastokeskuksen sivulla on opastusta hakuprosessiin https://www.stat.fi/tup/mikroaineistot/index.html.
  • Aineistoluvan hakeminen vaatii suunnittelua, koska haettavat aineistot ja valitut muuttujat määritellään hakuvaiheessa. Rekisteriviranomaisiin kannattaa olla yhteydessä hyvissä ajoin jo hakemuksen suunnitteluvaiheessa, jotta hakemukseen saa poimittua tutkimussuunnitelman toteuttamisen kannalta sopivimmat tiedot. Aineistoja:
  • Eri viranomaisten, kuten Findatan ja Tilastokeskuksen, tietoja voi linkata toisiinsa yksilötasolla: Tilastokeskuksen ohjeet https://www.stat.fi/tup/mikroaineistot/aineistojen-yhdistaminen.html.
  • Jos haetaan lupaa useiden eri rekisteriviranomaisten tietojen yhdistämiseen, pitää lupaa hakea kaikilta rekisteriviranomaisilta kertoen, mitä kaikkia tietoja lopulliseen aineistoon tulee, missä aineistoja säilytetään ja missä analysoidaan.
  • Findata ei luovuta tietoa muuta kuin tietoturva-auditoituihin käyttöympäristöihin (ks. Toini-rekisteri https://www.valvira.fi/terveydenhuolto/toisiolain-mukaiset-tietoturvalliset-kayttoymparistot/toisiokayttoymparistojen-rekisteri). Helsingin yliopistolla ei ole tällaista toisiokäyttöympäristöä. Rekisteriaineistojen käyttö tapahtuukin pääsääntöisesti Findatan (Kapseli) tai Tilastokeskuksen (Fiona) etäkäyttöjärjestelmissä. Näissä CSC:n ylläpitämissä etäkäyttöjärjestelmissä on käytettävissä useimmat tilasto-ohjelmistot (mm. R, Stata, SPSS, SAS). CSC:n SD Desktopin rajoitettu versio https://research.csc.fi/-/sd-desktop kuuluu toisiolain mukaisiin etäkäyttöympäristöihin. Se on HY:n tutkijoille maksuton, mutta sisältää vähän ohjelmistoja (LibreOffice, Python, R) eikä sinne saa viedä omia ohjelmistoja tai tiedostoja (esim. koodeja). Kaikki SD Desktopiin vietävät aineistot tulee viedä Findatan kautta, mitä varten tehdään erillinen, maksullinen hakemus.
  • Tilastokeskuksen tietoja voi pääsääntöisesti saada vain Tilastokeskuksen omaan etäkäyttöjärjestelmään. Findatan etäkäyttöjärjestelmään tai omaan organisaatioon luovutettuna on mahdollista saada Tilastokeskukselta vain seuraavat tiedot: kuolemansyytiedot, ikä, sukupuoli, koulutus, ammatti ja sosioekonominen asema (ks. ”Mitä tietoja on mahdollista saada luovutettuna omaan käyttöön tai Findataan?” https://www.stat.fi/tup/mikroaineistot/usein-kysyttya-mikroaineistoista.html).
  • Lupaprosessiin on hyvä varata riittävästi aikaa, koska aineiston saamiseen menee vähintään kuukausia, räätälöidymmissä aineistoissa usein yli vuosi. Rekisteriviranomaiset julkaisevat sivuillaan aikatauluarvioita: Tilastokeskuksen arviot https://tilastokeskus.fi/tup/mikroaineistot/index.html ja Findatan jonotilanne https://findata.fi/#stats. Aikataulut vaihtelevat, mutta kannattaa varautua siihen, että keskimäärin kaikki aina kestää pidempään kuin mihin on varautunut.
  • Lupaa haetaan kaikille käyttäjille erikseen. Uusille käyttäjille voi hakea käyttölupia myöhemminkin.
  • Aineistolupaa hakiessa jokaiselta aineiston käyttäjältä vaaditaan aineistoa koskeva salassapitositoumus.
  • Etäkäyttöjärjestelmään (Tilastokeskuksen Fiona tai Findatan Kapseli) haetaan erikseen käyttöoikeutta sen ylläpitäjältä. Etäkäyttöjärjestelmään luodaan etäyhteys joko yliopiston omalta työpisteeltä tai virtuaaliselta työasemalta (VDI). Ennen etäkäyttöoikeuden hakemista, ota yhteyttä Helsingin yliopiston tietotekniikkakeskukseen (datasupport@helsinki.fi tai it4science@helsinki.fi), jotta saat ajankohtaiset tiedot hakemukseen tarvittavasta teknisestä yhteyshenkilöstä. Kun yhteys on avattu Helsingin yliopistolta etäkäyttöjärjestelmään, sinne kirjaudutaan järjestelmän ylläpitäjän määrittelemällä tavalla (esim. kaksivaiheisella tunnistuksella).
  • Jokaisen etäkäyttäjän pitää toimittaa käyttäjä- ja työtilakohtainen etäkäyttösitoumus. Etäkäyttöön voi saada luvan myös kotoa tai ulkomailta, tosin tässä on maakohtaisia rajoituksia. Jos tutkija vaihtaa työpistettä tai työpaikkaa pysyvästi tai tutkijavierailun kautta, haetaan muutosta sijaintipaikkaan. Puhelinnumeron muuttuminenkin on ilmoitettava, koska kaksivaiheinen tunnistautuminen tapahtuu sen kautta.
  • Käyttölupaa haetaan tietyksi ajaksi, jonka jälkeen järjestelmään ei enää pääse eivätkä aineistotkaan ole enää käytettävissä. On kuitenkin tavallista, että käyttölupia jatketaan ja käyttöluvan jatkon hakeminen on varsinaista käyttöluvan hakua kevyempi prosessi – toki siihen liittyy omat kustannuksensa.

 

Rekisteriaineistojen yhdistäminen kyselyihin -ohje:

  • Lupa kysely- ja rekisteriaineistojen linkkaukseen on haettava eettiseltä toimikunnalta https://www.helsinki.fi/fi/tutkimus/palvelut-tutkijoille/tutkimuksen-eettinen-ennakkoarviointi ja rekisteriviranomaisilta. Lupia haettaessa on kerrottava, mitä linkkauksia tehdään.
  • Suostumus rekisterilinkkauksiin on pyydettävä kyselyn vastaajilta. Tutkittaville on kerrottava, mitä rekisteritietoja linkataan. Tämän voi tehdä esimerkiksi tiiviisti kyselylomakkeella linkaten tutkimuksen verkkosivulle listattuun kattavampaan kuvaukseen tehtävistä rekisterilinkkauksista ja tietojen käyttötarkoituksesta (esim. tietosuojailmoitus).
  • Suostumuskirje tutkittaville on esitettävä myös rekisteriviranomaiselle ja yliopiston eettiselle toimikunnalle. Tälle on varattava riittävästi aikaa, koska prosessit voivat olla pitkiä ja suostumuskirjeeseen saattaa joutua tekemään muutoksia.
  • Tilastokeskuksen ja Findatan rekisteriaineistojen yhdistämisen kyselyihin tekee kyseinen rekisteriviranomainen omassa etäkäyttöjärjestelmässään. Henkilötunnuksen sisältävät kyselyaineistot lähetetään rekisteriviranomaiselle, joka vastaa kyselyaineiston pseudonymisoinnista. Pseudotunnisteilla kyselyyn voi linkata rekisteritietoja etäkäyttöjärjestelmässä.

Rekisteriaineistojen säilytys ja käsittely etäkäyttöjärjestelmässä. Rekisteriaineistoja ei voi siirtää käsittelyä varten pois rekisterin ylläpitäjän tarjoamasta etäkäyttöjärjestelmästä. Tilastokeskuksen etäkäyttöjärjestelmän käytölle on maakohtaisia rajoituksia, eikä se ole mahdollista esim. Yhdysvalloista. Tilastokeskuksen Fionan ja Findatan Kapselin käyttöympäristöt ovat Tieteen tietotekniikan keskus CSC:n tuottamia. Eri järjestelmissä on omat ohjelmansa aineiston käsittelyyn ja niihin voi myös pyytää asentamaan omia analyysityökaluja ja -koodeja. Etäkäyttöjärjestelmässä kaikilla samaan aineistoon käyttöluvan saaneilla projektin tutkijoilla on pääsy tutkimusprojektin kaikkeen aineistoon. Jos pääsyä on tarpeen rajoittaa, projekti on jaettava pienempiin projekteihin. Projektin sisältä kansioita ei pysty hallitsemaan: etäkäyttöjärjestelmässä kaikki pääsevät myös toistensa työkansioihin. 

Etäkäytössä olevaa rekisteriaineistoa ei luovuteta ulos järjestelmästä, tuotettuja analyysituloksia saa tietyin ehdoin. Itse rekisteriaineisto pysyy rekisterin ylläpitäjän suljetussa ympäristössä, mutta etäkäyttöjärjestelmästä saa ulos ryhmiä koskevia analyysituloksia, kuten ryhmäkeskiarvoja, regressiokertoimia jne. Ulos tilattavat tulosteet käyvät läpi tietosuojatarkastusprosessin, ennen kuin ne lähetetään tutkijalle (ks. Tarkastusprosessista esim: ”Mikroaineistojen käyttö FIONAssa” https://www.stat.fi/tup/mikroaineistot/etakaytto.html). 

Ota huomioon etäkäyttöjärjestelmien rajallinen kapasiteetti aineiston käsittelyyn. Rekisteriaineistot ovat usein suuria, jopa miljoonia havaintoja ja satoja muuttujia sisältäviä kokonaisuuksia. Paljon muistia vaativissa analyyseissa ja jopa analyysiaineistojen säilyttämisessä etäkäyttöjärjestelmän rajat voivat tulla nopeasti vastaan (esim. Tilastokeskuksen järjestelmässä käyttömaksut on porrastettu sen mukaan, kuinka tehokas kone on käytössä). Datanhallinnassa on hyvä tiedostaa jo etukäteen rajalliseen käsittelykapasiteettiin liittyvät työskentelyn ongelmat, ja sopia samaa aineistoa käyttävän tutkimusryhmän kesken esimerkiksi analyysin välivaiheiden tuhoamiseen liittyvistä käytännöistä.

Varaa runsaasti aikaa aineistojen esikäsittelyyn ja yhdistelyyn. Viranomaistietoihin perustuvat rekisteriaineistot ovat usein ns. raakadataa, joka sopii paremmin hallinnon tarpeisiin ja tietojärjestelmiin kuin tutkimukseen. Raakadatan muokkaaminen tutkimusaineistoksi esimerkiksi tutkimusväestöä ja tutkimusjaksoa rajaamalla, tietoja eri lähteistä yhdistämällä ja tutkimuksen käsitteitä olemassa oleviksi tiedoiksi operationalisoimalla on hidasta ja paljon päätöksiä edellyttävää käsityötä. Myös eri rekisteritietojen kertymisen prosesseja ja rekisteritietojen saatavuutta ja laatua, sekä näiden mahdollisia muutoksia ajassa täytyy monesti selvittää rekisteriviranomaisilta erikseen. Tässä tutkimusyhteistyöstä on usein apua, sillä monet rekisteritutkijat painivat samanlaisten kysymysten parissa ja ratkaisuihin voi saada ideoita ja neuvoja muilta.

Kuvaa tutkimusjulkaisussa, mitä valmisaineistoja on käytetty. Rekisteritutkimuksen tutkimusjulkaisuissa kuvataan tyypillisesti analyysiaineisto, mutta ei raaka-aineistoa. Tutkimuksen toistettavuuden ja avoimen tieteen kannalta hyvä käytäntö voisi olla raportoida, mistä rekistereistä tai valmismoduuleista saatuja tietoja analyysiaineiston muodostamisessa on käytetty sekä mitä analyysimenetelmiä on käytetty aineiston valmisteluun. Aineiston raportointi muuttuja- ja rekisteritasolla on myös suositeltavaa, koska valmisaineistojen sisältö muuttuu ajassa ja tutkimuksen tarkastelijan tai aineistojen jatkokäyttäjän on hankala jälkikäteen selvittää, millainen valmisaineisto tutkijalla on ollut käytössä tutkimuksen toteutuksen ajankohtana.

Etäkäyttöaineistojen ja luovutettujen aineistojen säilytyksessä on eroa. Tilastokeskuksen ja Findatan aineistojen säilytys tapahtuu etäkäyttöympäristöissä, jotka ovat Tieteen tietotekniikan keskus CSC:n tuottamia. Tutkijoille omaan organisaatioon luovutetut aineistot tulee säilyttää tietoturvallisessa ympäristössä, joista vaihtoehtoina on yliopiston oma umpio-järjestelmä tai tiedot voidaan säilyttää esimerkiksi suojatuilla tallennusvälineillä. Yliopiston tarjoamalla ryhmätyötilalla ei saa säilyttää henkilötietoja sisältävää dataa, vaikka kansioihin pääsyä onkin mahdollista rajoittaa. Tutkijan on selvitettävä, miten aineisto siirretään rekisterinpitäjältä itselle ja miten varmistetaan turvallinen tiedonsiirto ja säilytys.

Mahdollinen aineiston käsittely ja säilytys HY:n käyttöympäristöissä. Aineistoa on hyvä säilyttää ja käsitellä pseudonymisoituna ja kryptattuna. Yliopistolaisten käytössä olevat koti- (Z:) ja ryhmähakemisto (P:) sopivat matalan ja keskitason riskin aineistolle, joka on pseudonymisoitu. Pseudonymisointiavaimet pitää säilyttää aina kryptattuna muussa tallennuspaikassa, erillään varsinaisesta datasta. Korkean riskin tunnisteellista tietoa tulee säilyttää Umpiossa, joka on HY:n tietoturvallinen käyttöympäristö (Umpio https://helpdesk.it.helsinki.fi/ohjeet/tallentaminen-ja-jakaminen/umpio-tallennustila). Helpdeskin datan tallennustaulukosta (https://wiki.helsinki.fi/display/RDMforum2014/Table%3A+Data+storage+and+sharing) voi vielä erikseen tarkistaa, mitkä tallennuspaikat sopivat sensitiiviselle datalle. Myös Helpdeskin ohjeista (https://helpdesk.it.helsinki.fi/tallentaminen-ja-jakaminen/tutkimuksen-tueksi#luottamuksellisten-ja-arkaluonteisten-tietojen-kasittelyyn) löytyy lisätietoja sensitiivisen datan käsittelyyn.

Etäkäytössä olevien rekisteriaineistojen säilytyksestä vastaa rekisterin ylläpitäjä. Kun aineiston käyttölupa päättyy, aineistojen käyttö tutkijan osalta loppuu. Rekisteriviranomaisen etäkäyttöjärjestelmässä olevan aineiston säilytys tai hävittäminen ei ole tutkijan vastuulla. Tutkijan vastuulla on kuitenkin ottaa talteen etäkäyttöjärjestelmässä olevat ohjelmakoodit ja tulokset tutkimuksen dokumentoimiseksi ja toistettavuuden takaamiseksi.

Luovutettujen aineistojen säilyttämisestä ja hävittämisestä vastaa tutkija. [OHJEISTUS TARKENTUU TÄMÄN OSALTA]

Aineiston käyttöluvan päättyessä aineisto tulee hävittää tietoturvallisesti. Etenkin arkaluonteisten aineistojen hävittämisessä tulee tiedostojen kohdalla noudattaa Helpdeskin ohjeistusta https://helpdesk.it.helsinki.fi/ohjeet/tallentaminen-ja-jakaminen/tiedostojen-turvallinen-poistaminen. Fyysiset tallennusmediat, kuten ulkoiset kovalevyt tai CD-levyt voidaan rikkoa; esim. rikottua CD-levyä on mahdotonta korjata. CD-levyjen hävittämiseen löytyy myös omia laatikoita, joita voi tiedustella tilapalveluista https://www-db2.helsinki.fi/tto/puhelin.lista.haku?valinta=4&osasto=K50&k1=on&k2=on&k3=off&ilme=yes&kl=0. Myös IT-lähitukea (helpdesk@helsinki.fi) voi aina pyytää hoitamaan hävityksen, mikäli on epävarma tai kyseessä on hyvin sensitiivinen aineisto.

Rekisteriaineistoista johdetut tulokset päätyvät yleensä tutkimusjulkaisuun. Tulokset perustuvat tilastollisiin analyyseihin aineistosta, mutta ne eivät sisällä yksilökohtaista dataa. Tulokset julkaistaan usein artikkelin yhteydessä. Myös julkaisemattomia kuvailevia tuloksia voi olla aiheellista säilyttää tehdyn tutkimuksen dokumentoinniksi.

Rekisteriaineistojen analyysikoodit voi säilyttää ja julkaista. Rekisteriaineistojen prosessoinnissa käytetyt ohjelmakoodit jäävät tutkijalle, ja lehdet voivat edellyttää niitä julkaistavaksi osana tutkimusjulkaisua. Analyysikoodit ovat tekstitiedostoja, jotka mahdollistavat palaamisen tutkimukseen tarvittaessa. Ohjelmakoodien julkaiseminen tukee tutkimuksen toistettavuutta, ja sitä voikin pitää hyvänä tieteellisenä käytäntönä. Julkaisua varten ohjelmakoodit kannattaa tallentaa Zenodoon https://zenodo.org/ ja linkittää GitHubiin https://github.com/. Zenodossa ne saavat pysyvän tunnisteen ja ovat paremmassa tallessa myös tutkijan omaa myöhempää käyttöä varten. Ohjelmakoodien ja algoritmien lisenssinä käytetään MIT- tai GNU-lisenssiä (ks. ”Mikä lisenssi sopii ohjelmistoille tai datalle” https://www.helsinki.fi/fi/helsingin-yliopiston-kirjasto/tutkijan-kirjasto/avoimen-tieteen-palvelut/tekijanoikeus-ja-lisenssit#mik--li-sens-si-so-pii-oh-jel-mis-toil-le-tai-da-tal-le---title).

Analyysikoodien kuvailu edistää jatkokäyttöä. Ohjelmakoodit on tarpeen kuvata riittävällä tarkkuudella. Jonkinlainen yleisdokumentaatio on aina tarpeen, mutta toiset tutkijat eivät välttämättä tarvitse jokaisen käskyn avaavaa yksityiskohtaista selostusta joka riville. Muille samanlaisia tilastoanalyyseja tekeville tutkijoille ainakin osa ohjelmakoodista on luettavissa ja ymmärrettävissä myös ilman rivikohtaista dokumentaatiota.

Linkki tulossa tähän.