Aineistonhallinta
Tarjoamme tukipalveluita aineistonhallintaan ja sen suunnitteluun koko tutkimuksen elinkaaren ajalle. Autamme datan järjestämiseen, tallentamiseen ja jakamiseen liittyvissä kysymyksissä sekä juridisissa asioissa.
Aineistonhallinnan suunnittelu ja ohjeet

Aineistonhallintasuunnitelmassa kuvataan, kuinka tutkimusaineistoja* hallitaan tutkimusprojektin aikana ja projektin aktiivivaiheen jälkeen. Sitä on päivitettävä tutkimusprojektin edetessä.

Aineistonhallintasuunnitelma on osa tutkimussuunnitelmaa. Päällekkäisyyksien välttämiseksi voit viitata aineistonhallintasuunnitelmassa tutkimussuunnitelmaan ja päinvastoin. Aineiston analysointi ja käytetyt menetelmät kuvataan tutkimussuunnitelmassa.

Aineistonhallintasuunnitelmassa tutkimusaineistoksi (tutkimusdata) voidaan lukea

  • eri menetelmillä kerätyn aineiston (kuten näytteet, kyselyt, haastattelut, mittaukset, arvioinnit, kuvantamismenetelmät yms.);
  • tutkimuksen aikana tuotetun aineiston (kuten analysoitu aineisto);
  • muun lähdemateriaalin (esimerkiksi monimuotoinen arkistomateriaali);
  • muistiinpanot ja kenttäpäiväkirjat sekä
  • lähdekoodit ja ohjelmistot.

Voit hyödyntää DMPTuulia, avointa verkkosovellusta, aineistonhallintasuunnitelmasi tekemiseen. Alle listatut yleisen tason osiot toimivat Helsingin yliopiston ohjeistuksena aineistonhallintasuunnitelmalle. Avoimesti julkaistuja Helsingin yliopiston tutkijoiden tekemiä aineistonhallintasuunintelmia voit selata Zenodossa.

*Sanoilla tutkimusaineisto ja tutkimusdata voidaan tarkoittaa eri asioita erilaisissa yhteyksissä ja ne voidaan ymmärtää myös synonyymeinä (Helsingin yliopiston tutkimudatapolitiikka, 2021).

Tutkimusaineisto

Mitä aineistoa tutkimuksessa käytetään ja tuotetaan?  Missä tiedostomuodoissa aineiston eri osat ovat? Kuinka paljon aineistosi vaatii levytilaa / muistia? Käytättekö erityisiä ohjelmia / kehitättekö omia?

Hy­viä käy­tän­tö­jä

Jos käytät arkaluonteista tietoa, katso myös seuraava ohje (arkaluotoiset ja luottamukselliset aineistot). Jäsentele aineiston osat ranskalaisin viivoin alla olevan luokittelun mukaisesti tai taulukkona.

Esimerkki 1:

Tutkimusta varten kerättävä aineisto

  • Kyselykaavakkeet aiheesta x, tiedostomuoto .pdf, koko 5Gt
  • DNA-näyte, näyte
  • Kuvat/videot aiheesta x, tiedostomuoto .jpg, .avi, koko 1Tt

Tutkimusprosessin tuloksena syntyvä aineisto

  • Kyselykaavakkeiden analyysit, .pdf, .xslx, 2Gt
  • DNA sekvenssi/analyysi, FASTA, .txt, .xslx, 2Tt
  • Aineiston dokumentaatioaineisto (laboratoriopäiväkirja, koodikirja, readme-tiedostot)

Aiemmin kerätty aineisto (esim. jonkun muun toimesta)

  • Näytteet Biopankista
  • Tilastokeskuksen aineisto x, tietokanta, 10Gb
  • Kyselyaineisto Tietoarkiston Aila-tietokannasta
  • Haastatteluaineisto tai kielikorpus Kielipankista

Esimerkki 2:

Datatyyppi, Lähde, Formaatti, Sensitiivisyys, Koko

Kyselylomake X, Kerätty data, docx; txt, Ei/Kyllä, 1 Gt

Kyselylomakkeen X analyysiaineisto, prosessin tuloksena syntyvä data, .xslx, tif, 100 Mb

DNA samples, data kerätty Biopankista

Tutkimusaineiston arkaluonteiset osat sisältävät erityisen paljon riskejä, niiden tunnistaminen ja hallinnointi vaatii erityistä tarkkuutta. Henkilötietojen osalta kerro, mikä taho toimii rekisterinpitäjänä. Lisätietoja Tutkijoiden tietosuojaohjeessa (vaatii kirjautumisen HY:n tunnuksilla).

Arkaluonteinen ja luottamuksellinen tieto on sellaista, joka voi paljastuessaan aiheuttaa vahinkoa. Tällaisia aineistoja ovat esimerkiksi:

  • Henkilötiedot
    • Henkilötietoja ovat kaikki ne tiedot, joista henkilö on yksilöitävissä joko suoraan tai epäsuorasti
    • Suorat tunnisteet: nimi, puhelinnumero, henkilötunnus, kuva, ääni, sormenjälki, hammaskartta
    • Epäsuorat tunnisteet: sukupuoli, ikä, koulutus, ammattiasema, kansallisuus, sijaintitunnisteet, työhistoria, järjestelmän lokitiedot, siviilisääty, asuinpaikka, auton rekisterinumero
  • Arkaluontoinen henkilötieto
    • Erityisiä henkilötietoryhmät
      • tiedot, joista ilmenee rotu tai etninen alkuperä, poliittisia mielipiteitä, uskonnollinen tai filosofinen vakaumus tai ammattiliiton jäsenyys
      • geneettiset tiedot
      • biometriset tiedot, jos niitä käsitellään henkilön yksiselitteisesti tunnistamista varten
      • terveyttä koskevat tiedot
      • luonnoisen henkilön seksuaalista käyttäytymistä ja suuntautumista koskevat tiedot
    • Muut sensitiiviset henkilötiedot
      • taloudelliset tiedot
      • sijainti
      • viestintä
      • käyttäytyminen
      • muut erityisen henkilökohtaisiksi koetut tiedot esim. muistiinpanot, päiväkirjat
  • Sensitiivinen lajitieto, kuten uhanalaiset eläimet ja kasvit, luonnonsuojelullinen tieto tai bioturvallisuuteen liittyvä tieto.
  • Muu luottamuksellinen tieto, kuten patentit, maanpuolustukseen liittyvä tieto, organisatorinen tieto tai liikesalaisuudet.

Mitä piileviä riskejä aineiston yhtenäisyyden ja laadun varmistamiseen liittyy ja miten riskejä kontrolloidaan. Huomaa, että aineiston laatu ja tutkimusmenetelmän laatu tarkoittavat eri asioita.

Hy­viä käy­tän­tö­jä

  • Onko käytössäsi aineistonhallinnan työkaluja, kuten aineiston keräämiseen tarkoitettu tietokanta?
  • Onko kaikki aineistoa käsittelevät henkilöt perehdytetty?
  • Ovatko käytettävät menetelmät validoituja, tai onko käytössä laatukäsikirja?
  • Tarkistaako joku äänitettyjen tai kuvattujen haastattelujen litteroinnin?
  • Käytättekö tarkistussummia (ohjelmistot)?
  • Vastaavatko digitoidut aineistot riittävän tarkasti alkuperäisiä fyysisiä tai analogisia aineistoja?
  • Varmistetaanko alkuperäisen tietosisällön säilyminen, jos tietoja muutetaan tai konvertoidaan järjestelmästä toiseen?
  • Pohdi, miten mahdollinen minimointi, pseudonymisointi tai anonymisointi vaikuttavat aineiston laatuun.
Eettiset periaatteet ja lainsäädäntö
  • Sisältääkö aineistosi henkilöihin liittyvää tietoa (jolloin on otettava huomioon tietosuojalainsäädäntö)?
  • Liittyykö aineistoosi yleisissä tai tieteenalakohtaisissa tutkimuseettisissä ohjeistuksissa linjattuja näkökohtia?
  • Tarvitseeko tutkimuksesi eettisen ennakkoarvioinnin?
  • Millaisia tutkimus- tai viranomaislupia tarvitset?
  • Käsitteletkö muuta salassa pidettävää tai luottamuksellista aineistoa kuin yllämainitut (esim. sensitiivinen lajitieto, suojelualueet, asevoimiin liittyvä tieto)?
  • Liittyykö aineistoon tekijänoikeus- tai patentointikysymyksiä?

Kerro, miten täytät eettiset vaatimukset ja noudatat asiaankuuluvaa lainsäädäntöä tutkimusaineiston hallinnassa. Kuvaa myös tärkeimmät riskit ja kuinka hallitset niitä.

  • Perustele, että sinulla on oikeus kerätä, käsitellä ja säilyttää aineistoa, joihin liittyy eettisiä seikkoja. Esim. eettinen ennakkoarviointi on tehty.
  • Käsitellessäsi henkilöihin liittyviä tietoja (henkilötietoja (lisäohjeita linkin takana):
    • Kerro, mitkä tahot käsittelevät tietoja ja kuka tai ketkä ovat aineiston rekisterinpitäjiä 
    • Kuvaile, miten keräät aineiston ja huomioit lainsäädännön yleiset periaatteet:
      • Millä käsittelyperusteella (yleensä yleisen edun mukainen tieteellinen tutkimus) ja mahdollisilla luvilla saat aineiston käyttöösi? Tarvitsetko suostumuksia?
      • Miten informoit tutkittavia? (Avoimuus tutkittavia/tutkimushankkeeseen osallistuvia kohtaan.)
      • Mitkä henkilöihin liittyvät tiedot ovat tarpeellisia ja miksi (minimointiperiaate) ja kerro miten tarvittaessa anonymisoit tai pseudonymisoit aineiston.
      • Miten huomioit käyttötarkoitussidonnaisuuden (että aineistoja käytetään vain niihin tarkoituksiin joihin ne on kerätty ja mitä tutkittaville on mahdollisesti informoitu) 
      • Miten huolehdit siitä että tietoja ei sälytetä kauempaa kuin on tarpeen (pseudonymisointi, anonymisointi, tietojen tuhoaminen) ja mitä aineistolle tapahtuu tutkimuksen päättymisen jälkeen 
    • Arvioi, mitä riskejä henkilötietojen käsittelystä voi aiheutua tutkittaville ja kuvaile miten ne vältät? Mikäli tutkimus saattaa aiheuttaa korkean riskin tutkittaville, on sinun tehtävä myös tietosuojaa koskeva vaikutusten arviointi. 
    • Arvioi miten voit toteuttaa rekisteröidyn oikeudet.
    • Mikäli siirrät tai luovutat aineistoa käsiteltäväksi EU:n ulkopuolelle, kerro miten siirtojen lainmukaisuudesta huolehditaan.

Ohjeita datan omistusoikeuksista ja lisensseistä

  • Aineiston omistajuus riippuu rahoittajasta. Huolehdi että kaikki tarvittavat sopimukset on tehty jo heti projektin alussa (aineistonomistajuus & kirjoittajuus). 
    • Muista, että useimmat rahoittajat (Suomen Akatemia, EU) edellyttävät aineiston oikeuksien siirtämistä yliopistolle.
    • Ohjeita sopimusten tekemiseen (Flamma)
  • Kun avaat aineistoa, käytä lisenssiä.
Do­ku­men­toin­ti ja me­ta­tie­dot

Dokumentointi tarkoittaa aineiston kuvaamista eli dokumentteja, jotka selittävät, mitä aineistoa projektissa on ja miten ne ovat syntyneet.

Dokumentointia ovat mm. muuttujien ja koodien selitteet (data dictionary & code books) ja readme-tiedostot. Lisäksi dokumentaatioon liittyvät tiedostojen nimeämiskäytännöt, versionhallinta sekä kansiorakenne. Dokumentointiin on olemassa standardoituja käytäntöjä. Niiden käyttö lisää aineiston arvoa ja jatkokäytön mahdollisuuksia. 

Hy­viä käy­tän­tö­jä

  • Metadatastandardit: Monet arkistot edellyttävät tietyn standardin käyttöä. Jos tiedät, missä julkaiset aineiston tutkimuksen valmistuttua, kannattaa tarkistaa standardivaatimukset.
  • Tietokantaohjelmistot & aineistonhallintaohjelmistot (esim. elektroninen laboratoriopäiväkirja).
  • Sanasto, jossa selitetään käytetyt muuttujat, termit, lyhenteet ja mittayksiköt; tai koodikirja, joka kerää ja kuvaa projektin koodit ja algoritmit.
  • Tiedostojen nimeämiskäytännöt
  • Kansiorakenne: Muista aineiston kuvailun yhteydessä, että myös tiedostonimet, tiedostokansioiden nimet sekä muuttujat ja metadata saattavat sisältää henkilötietoja tai arkaluonteista tietoa.
  • README-tiedostot, jotka kuvaavat aineistotiedostojen sisältöä tai vaikkapa koko projektia.
  • Versionhallinta.
Tal­len­ta­mi­nen ja pää­syn­hal­lin­ta

Minne aineisto tallennetaan ja varmuuskopioidaan tutkimushankkeen aikana? Kuka on vastuussa varmuuskopioinnista? Tee suunnitelma yhteistyökumppaniesi kanssa ja varmista tietojen turvallinen siirto ja jakaminen osallisten välillä.

Hy­viä käy­tän­tö­jä

  • Käytä Helsingin yliopiston tietotekniikkakeskuksen tallennus- ja jakamispalveluita. HY:n tallennusratkaisut ja niiden yksityiskohdat on löydettävissä tästä taulukosta.
  • Pilvipalvelut: Käytä HY:n OneDrive for Business - tai Teams- pilvipalvelua ulkopuolisten palveluiden tai kuluttajapalveluiden (esim. Google Drive/ Dropbox) sijaan.
  • ÄLÄ KÄYTÄ ulkoisia kovalevyjä pääasiallisena tallennusvälineenä.

Selvitä, onko projektillasi riittävästi tallennuskapasiteettia. Lisää levytilaa saat ottamalla yhteyttä Helpdeskiin puh. 02 941 55555 tai helpdesk@helsinki.fi

Jos työskentelet arkaluontoisen aineiston kanssa:

  • Varmista, että tallennusratkaisusi on tarpeeksi turvallinen aineistollesi, esim. erillinen HY:n tai CSC:n turvatallennuspalvelu (Umpio, tallennuspalvelin, ePouta...).
  • Älä käytä pilvipalveluita puutteellisen tietosuojan vuoksi!
  • Salaus tarpeen mukaan. Erityisesti mobiililaitteet, kannettavat ja ulkoiset tallennuslaitteet on pyrittävä salaamaan. Esim. Cryptomator.
  • Ota yhteyttä datasupport@helsinki.fi, jos olet epävarma aineiston suojaamisesta.
  1. Kuka (nimeä henkilö) valvoo pääsynhallintaa aineistoihin?
  2. Miten valvonta toteutuu käytännössä? Onko käytössä IT-ratkaisu (esim. salasanan takana oleva käyttöoikeus, muutosloki) tai fyysinen ratkaisu (esim. arkistokaappi/ kassakaappi)?
  3. Kenellä tutkimusryhmässä on oikeus mihinkin aineistoon?
  4. Miksi kukin käyttöoikeus (muokkaus, katselu, poisto) on myönnetty?
  5. Kerro, kuinka arkaluontoisen aineiston tietoturva ja riskit on otettu huomioon. Säilytetäänkö aineisto esimerkiksi kryptattuna? Lisävinkkejä alla.

Hy­viä käy­tän­tö­jä

  • Kun käytät henkilökohtaista tai jaettua verkkolevytilaa, pystyt helposti hallitsemaan käyttöoikeuksia.
  • Arkaluontoisen aineiston pääsynhallintaan pitää kiinnittää erityistä huomiota. Aineiston käytön ja siirron pitää olla suostumuksen ehtojen mukaista, mikäli aineisto on saatu käyttöön suostumuksen perusteella.
  • Pääsynhallinta: Käytössä pitää olla lista myönnetyistä oikeuksista ja käyttäjistä sekä tapa, jolla käyttöoikeuksia aineistoon voi myös perua ja poistaa.
  • Valvonta: Miten aineiston käyttöä seurataan tutkimuksen aikana? Pystyvätkö käytetyt tekniset välineet pitämää kirjaa siitä kuka käytti, mitä aineistoa ja milloin? Kysy organisaatiosi IT-tuesta, onko tarjolla käyttö- ja muutoslokitusta.
  • Tilaturvallisuus: Tarkista työtilojen lukitukset, turvalliset säilytyskalusteet, kameravalvonta ja kulkuoikeuksien valvonta.
Ai­neis­ton avaa­mi­nen ja pit­kä­ai­kais­säi­ly­tys

Mikä osa aineistosta avataan / julkaistaan? Missä data-arkistossa aineiston osat julkaistaan? Milloin aineisto on saatavilla? Poistetaanko / tuhotaanko jokin aineiston osa?

Jos aineistoasi ei voida avata kokonaan tai osittain, perustele miksi, ja kerro, missä aineiston metatiedot julkaistaan.

Vinkkejä henkilötietoja sisältävän aineiston avaamiseksi

  • Henkilötietoja sisältävän aineiston avaamisen ja jakamisen mahdollisuuksiin vaikuttavat mm. se, mitä tutkittaville on informoitu tietoja kerättäessä, onko tutkittavalta saatu tähän nimenomainen suostumus, tai missä muodossa sekä mihin tarkoituksiin tiedot aiotaan avata tai jakaa.
    • Avaamisessa tulee huolehtia edelleen tietojen asianmukaisesta suojaamisesta ja mahdollisuuksien mukaan pseudonymisoida tai anonymisoida tiedot.
    • Aineiston avaamiseen, josta tutkittavat ovat suoraan tunnistettavissa, on lähtökohtaisesti pyydettävää tutkittavalta suostumus.  
    • Aineisto voidaan jakaa joissain tapauksissa alkuperäisen käsittelytarkoituksen mukaiseen tarkoitukseen. Jos suunnittelet henkilötietoja sisältävän aineiston jakamista, ota yhteyttä yliopiston tutkimuspalvelujen juristeihin (tutkimuksenjuristit@helsinki.fi)
  • Vaikka henkilötietoja sisältävää aineistoa ei voisi avata, sen keskeiset (ei arkaluonteisia yksityiskohtia sisältävät) kuvailutiedot pitää avata.

Hy­viä käy­tän­tö­jä

  • Valitse sopivat palvelut aineistojesi jakamista ja säilytystä varten jo tutkimuksen alkuvaiheessa. Huolehdi myös siitä, että aineistosi täyttää valitsemasi palvelun asettamat vaatimukset. 
  • ”Helsingin yliopiston piirissä tuotettu, julkaistuihin tutkimustuloksiin liitetty tutkimusaineisto on lähtökohtaisesti yhteiskäyttöistä ja avointa. Aineiston löydettävyydestä ja viitattavuudesta on huolehdittava.” (Helsingin yliopiston tutkimusdatapolitiikka)
  • Missä aineisto kannattaa julkaista: 
    • Tarkista oman alasi kustantajien, tieteellisten seurojen ja rahoittajien suositukset. 
    • Missä sinä tai alasi kollegat ovat julkaisseet aineistoja?
    • Hae tietylle aineistotyypille sopiva julkaisupaikka re3data.org palvelusta
    • Yleisiä julkaisupaikkoja: IDA, Zenodo, DryadFigshare 
  • Jos et voi avata aineistoa, julkaise kuitenkin tutkimusaineiston metatiedot, esim. Zenodossa tai kansallisessa Etsimessä.
  • Valitse pysyviä tunnisteita (DOI, URN) käyttävä palvelu
  • Muista antaa aineistollesi käyttölisenssi (kts. 2)

Aineiston pitkäaikaissäilytyksellä tarkoitetaan vähintään 25 vuoden säilytysaikaa, mutta jopa satoja vuosia. Jos aineistollasi on pitkäaikaista arvoa:

  1. Mikä osa aineistosta arkistoidaan?
  2. Missä arkistossa aineistoa säilytetään?
  3. Kuinka pitkään aineisto säilyy ko. arkistossa?
  4. Onko arkistoinnissa kuluja ja kuka niistä vastaa?
  5. Tuhotaanko joku osa aineistosta?

Arkistointisuunnitelma on osa tutkimuksen laadun ja läpinäkyvyyden varmistusta.

Hy­viä käy­tän­tö­jä

  • Tutkimuksessa syntyvän aineistolle säilytysaika on tärkeä miettiä ja sopia sitä mukaan kuin aineistoa syntyy. 
  • Tarkistaa kustantajan vaatimukset julkaisuun liittyvän aineiston säilyttämisajasta.
  • Muista tarkistaa rahoittaja- ja alakohtaiset suositukset.
  • Myös henkilötietoja sisältävä aineisto voidaan arkistoida. Siirrettäessä henkilötietoja sisältävää tutkimusaineistoa arkistoon, tulisi henkilöiden tunnistetiedot mahdollisuuksien mukaan poistaa, ellei niiden arkistoinnille ole asianmukaista perustetta, johtuen aineiston luonteesta. Arkistoinnista on myös informoitava tutkittavia, sekä siitä mihin aineiston arkistointi perustuu. Aineiston arkistoinnissa on edelleen huomioitava henkilötietojen asianmukainen suojaaminen eli kenellä aineistoon on pääsy ja miksi. 
    • Helsingin yliopistolla on tarjolla neuvontaa turvallisten tallennusratkaisujen valintaan. Jos olet säilyttämässä pitkään arkaluonteista henkilötietoa, ota yhteyttä: datasupport@helsinki.fi
  • Näytteisiin liittyvä aineisto voidaan arkistoida biopankkiin.
  • Kansallisesti arvokkaille aineistoille on tarjolla Fairdata-PAS -palvelu aineistojen säilyttämiseksi kymmenistä satoihin vuosiin. Lisätietoja HY:n PAS palvelusta.
Ai­neis­ton­hal­lin­nan vas­tuut ja re­surs­sit

Kuka vastaa aineistonhallintaan liittyvistä tehtävistä? Kuka vastaa aineiston tietosuojasta ja -turvasta sekä näiden valvonnasta? 

Hy­viä käy­tän­tö­jä

  • Onko aineistonhallinta tietyn henkilön vastuulla vai onko se koko tutkimusryhmän vastuulla? 
  • Kuka vastaa siitä, että kaikki ovat saaneet tarpeellisen koulutuksen ja yhteisistä käytänteistä on sovittu?

Mitä resursseja (ajalliset & työmäärä) aineistonhallintaan tarvitaan? Mitä paremmin tutkimusaineiston hallinta on suunniteltu ja toteutettu jo tutkimushankkeen alussa ja sen aikana, sitä vähemmän työtä tarvitaan aineiston avaamisessa ja arkistoinnissa.

  • Arvioi edellyttääkö aineiston hallinnointi, säilyttäminen ja jakaminen asiantuntija apua / palkattua työntekijää
  • Anna arvio ajasta, joka menee data-aineiston (ei tulosten) siistimiseen ja dokumentointiin julkaisukuntoon. Esimerkiksi: siihen käytetään viikoittain aikaa 1-2 h, kuukaudessa päivä, 1-2 viikkoa ennen arkistointia tms.
    • Aineiston siistiminen ja dokumentointi tarkoittaa muun muassa metatiedon tuottamista (kohta 3.1), henkilötietoa sisältävän aineiston anonymisointia, aineiston valintaa, järjestelyä ja siirtämistä.
    • On suositeltavaa pitää dokumentointi ajan tasalla koko tutkimuksen elinkaaren ajan.
  • Erittele aineistonhallintakustannukset budjetissa rahoittajan ohjeiden mukaisesti.

  • Costs of data management (Utrecht University)