Aineistonhallinta

Tutkimusaineiston hallinta sekä sen suunnittelu kuuluvat olennaisesti hyviin tutkimuskäytäntöihin ja sen tavoitteena on tunnistaa ja hallita riskejä, huomioida riittävä tietosuoja ja tietoturva, sopia aineiston tekijyydestä, käytöstä ja säilyttämisestä, sekä varmistaa tarvittavat resurssit ja välineet. Tälle sivulle on koottu tietoa yllämainituista asioista sekä miten vastata aineistohallintasuunnitelman (Data Management Plan, DMP) kysymyksiin.

Helsingin yliopiston Datatuki auttaa tutkijoita aineistonhallinnassa. Datatuki on asiantuntijoiden verkosto yliopiston kirjastosta, IT tuesta, keskusarkistosta, tutkimuspalveluista, henkilöstöpalveluista sekä lakipalveluista. Voit olla yhteydessä meihin sähköpostitse datasupport@helsinki.fi.

Tältä sivulta löydät Helsingin yliopiston ohjeet tutkimusaineiistojen hallintaan ja voit hyödyntää vinkkejä kirjoittaessasi aineistohallintasuunnitelmaa (Data Management Plan, DMP). FAIR-periaatteiden mukaan tutkimusaineistojen tulisi olla löydettäviä (Findable), saavutettavia (Accessible), yhteentoimivia (Interoperable) ja uudelleenkäytettäviä (Re-usable). Lisätietoa FAIR-palveluista Suomessa löytyy Fairdata-sivuilta.

Aineistohallintasuunnitelma (Data Management Plan, DMP)

Aineistohallintasuunnitelmassa kuvataan, kuinka tutkimusaineistoja hallitaan tutkimusprojektin aikana ja projektin aktiivivaiheen jälkeen. Sitä on päivitettävä tutkimusprojektin edetessä.

Aineistonhallintasuunnitelma on osa tutkimussuunnitelmaa. Päällekkäisyyksien välttämiseksi voit viitata aineistonhallintasuunnitelmassa tutkimussuunnitelmaan ja päinvastoin. Aineiston analysointi ja käytetyt menetelmät kuvataan tutkimussuunnitelmassa.

Aineistohallintasuunnitelmassa tutkimusaineistoksi (tutkimusdata) voidaan lukea

  • eri menetelmillä kerätyn aineiston (kuten näytteet, kyselyt, haastattelut, mittaukset, arvioinnit, kuvantamismenetelmät yms.);
  • tutkimuksen aikana tuotetun aineiston (kuten analysoitu aineisto);
  • muun lähdemateriaalin (esimerkiksi monimuotoinen arkistomateriaali); sekä
  • lähdekoodit ja ohjelmistot.

Voit hyödyntää DMPTuulia, avointa verkkosovellusta, aineistohallintasuunnitelmasi tekemiseen. Alle listatut yleisen tason osiot (1-6) toimivat Helsingin yliopiston ohjeistuksena aineistohallintasuunnitelmalle. Avoimesti julkaistuja Helsingin yliopiston tutkijoiden tekemiä aineistohallintasuunintelmia voit selata Zenodossa.

Tutkimusaineiston yleiskuvaus

Mitä aineistoa tutkimuksessa käytetään ja tuotetaan?  Missä tiedostomuodoissa aineiston eri osat ovat? Kuinka paljon aineistosi vaatii levytilaa / muistia? Käytättekö erityisiä ohjelmia / kehitättekö omia?

Hyviä käytäntöjä

Jos käytät arkaluonteista tietoa, katso esimerkkien alla oleva ohje. Jäsentele aineiston osat ranskalaisin viivoin alla olevan luokittelun mukaisesti tai taulukkona.

Esimerkki 1:

Tutkimusta varten kerättävä aineisto

  • Kyselykaavakkeet aiheesta x, tiedostomuoto .pdf, koko 5Gb
  • DNA-näyte, näyte
  • Kuvat/videot aiheesta x, tiedostomuoto .jpg, .avi, koko 1Tb

Tutkimusprosessin tuloksena syntyvä aineisto

  • Kyselykaavakkeiden analyysit, .pdf, .xslx, 2Gb
  • DNA sekvenssi/analyysi, FASTA, .txt, .xslx, 2Tb
  • Aineiston dokumentaatioaineisto (laboratoriopäiväkirja, koodikirja, readme-tiedostot)

Aiemmin kerätty aineisto (esim. jonkun muun toimesta)

  • Näytteet Biopankista
  • Tilastokeskuksen aineisto x, tietokanta, 10Gb

Esimerkki 2:

Data type

Source

File format

Sensitivity

Size

Questionnaire x

data collected

.csv, .txt, .docx,

No / Yes

1Gb

Analysis of the questionnaire x

data produced

.xslx, .tif

 

100Mb

DNA samples

data reused from Biobank

 

 

 

Lisäohjeita arkaluonteisten ja luottamuksellisten aineistojen käyttäjille

Tutkimusaineiston arkaluonteiset osat ovat erityisen tarpeellista tunnistaa, koska aineistonhallinnan suunnittelussa keskitytään näihin liittyvien riskien tunnistamiseen ja hallintaan. Henkilötietojen osalta kerro, mikä taho toimii rekisterinpitäjänä. Lisätietoja Tutkijoiden tietosuojaohjeessa (Flamma).

Arkaluonteinen ja luottamuksellinen tieto on sellaista, joka voi paljastuessaan aiheuttaa vahinkoa. Tällaisia aineistoja ovat esimerkiksi:

  1. Arkaluonteinen henkilötieto; arkaluonteisista henkilötiedoista ei voi tehdä kattavaa listausta. Tutkimuksen tekijöiden vastuulla on tunnistaa tiedot, joiden paljastumisesta saattaisi olla haittaa tutkittaville. Arkaluonteiset tiedot voivat liittyä terveyteen tai sairastumisriskeihin, seksuaaliseen suuntautumiseen, etniseen alkuperään, ammattiliittoon kuulumiseen, uskonnollisiin vakaumuksiin tai geneettisiin tietoihin.
  2. Sensitiivinen lajitieto, kuten uhanalaiset eläimet ja kasvit, luonnonsuojelullinen tieto tai bioturvallisuusuuteen liittyvä tieto.
  3. Muu luottamuksellinen tieto, kuten patentit, maanpuolustukseen liittyvä tieto, organisatorinen tieto tai liikesalaisuudet.

Henkilötietoja ovat kaikki ne tiedot, joista henkilö on yksilöitävissä joko suoraan tai epäsuorasti.

  • Suorat tunnisteet: nimi, puhelinnumero, henkilötunnus, kuva, ääni, sormenjälki, hammaskartta
  • Epäsuorat tunnisteet: sukupuoli, ikä, koulutus, ammattiasema, kansallisuus, sijaintitunnisteet, työhistoria, järjestelmän lokitiedot, siviilisääty, asuinpaikka, auton rekisterinumero

 

Aineiston yhtenäisyys ja laatu

Mitä piileviä riskejä aineiston yhtenäisyyden ja laadun varmistamiseen liittyy ja miten riskejä kontrolloidaan. Huomaa, että aineiston laatu ja tutkimusmenetelmän laatu tarkoittavat eri asioita.

Hyviä käytäntöjä

  • Onko käytössäsi aineistonhallinnan työkaluja, kuten aineiston keräämiseen tarkoitettu tietokanta?
  • Onko kaikki aineistoa käsittelevät henkilöt perehdytetty?
  • Ovatko käytettävät menetelmät validoituja, tai onko käytössä laatukäsikirja?
  • Tarkistaako joku äänitettyjen tai kuvattujen haastattelujen litteroinnin (”double blinding”)?
  • Käytättekö tarkistussummia (ohjelmistot)?
  • Vastaavatko digitoidut aineistot riittävän tarkasti alkuperäisiä fyysisiä tai analogisia aineistoja?
  • Varmistetaanko alkuperäisen tietosisällön säilyminen, jos tietoja muutetaan tai konvertoidaan järjestelmästä toiseen?
  • Pohdi, miten mahdollinen minimointi, pseudonymisointi tai anonymisointi vaikuttavat aineiston laatuun.
 

Aineistonhallinnan eettiset kysymykset

Sisältääkö aineistosi henkilötietoa? Teetkö eläinten kanssa töitä, jotka vaativat eettisen luvan? Käsitteletkö muuta salassa pidettävää tai luottamuksellista aineistoa kuin yllämainitut (esim. sensitiivinen lajitieto, suojelualueet, asevoimiin liittyvä tieto)?

Miten täytät eettiset vaatimukset ja noudatat asiaankuuluvaa lainsäädäntöä tutkimusaineiston hallinnassa? Mitä riskejä aineiston eettiseen hallintaan liittyy ja kuinka hallitset niitä? 

Hyviä käytäntöjä

  • Perustele, että sinulla on oikeus kerätä, käsitellä ja säilyttää aineistoa, joihin liittyy eettisiä seikkoja. Esim. eettinen ennakkoarviointi on tehty.
  • Käsitellessäsi henkilötietoja:
    • Kerro, mitkä tahot ovat aineiston rekisterinpitäjiä, jos et ole tätä jo tehnyt kohdassa 1.1
    • Kerro, miten suojaat tutkittavien yksityisyyden ja tarvittaessa anonymisoit tai pseudonymisoit tiedot.

 

Aineistonhallinnan juridiset kysymykset

Mitä aineiston käytöstä on sovittu? Kohdistuuko aineistoon kolmansien osapuolten oikeuksia? Miten aineiston käytöstä sovitaan tulevien yhteistyökumppaneiden kanssa? Liittyykö aineistoon patentteja? Millä lisenssillä aineistoa aiotaan julkaista?

Hyviä käytäntöjä

Tarkempia ohjeita oikeuksista aineistoon ja lisensseistä:

  • Kerro selkeästi mikä taho(t) omistaa aineiston. Kerro tarvittaessa, että hankkeeseen osallistuvat tutkijat ovat allekirjoittaneet oikeuksiensiirtositoumukset ja että yliopiston ulkopuolisten yhteistyökumppaneiden kanssa on sovittu aineiston ja tulosten oikeuksista. Lisäksi kirjoittajuuksista tulee sopia projektin alkuvaiheessa. Sopimalla aineiston oikeuksista ja julkaisujen tekijyyksistä ehkäiset ennalta mahdollisia aineiston käyttöön liittyviä riitatilanteita.
    • Muista, että useimmat rahoittajat (Suomen Akatemia, EU) edellyttävät aineiston oikeuksien siirtämistä yliopistolle. Huolehdithan, että tarvittavat sopimukset tehdään.
    • Helsingin yliopisto ei omista tutkijoiden keräämää aineistoa, paitsi kun tästä on erikseen sovittu. Vastuulliset tutkijat vastaavat siitä, että tutkimuksessa syntyvien aineistojen omistus- ja käyttöoikeuksia koskevat sopimukset tehdään mahdollisimman varhaisessa vaiheessa [Helsingin yliopiston tutkimusdatapolitiikka].
    • Ohjeita sopimusten tekemiseen (Flamma)
  • Kerro, millä lisenssillä tutkimusaineisto aiotaan avata. Yliopisto suosittelee CC 0 -lisenssiä, jolloin käyttäjä saa oikeudet vapaasti käyttää aineistoa kaikkiin tarkoituksiin.  Säilytät kuitenkin moraaliset tekijänoikeutesi, ja hyvä tieteellinen käytäntö edellyttää edelleen tekijän mainitsemista. Vaihtoehtoisia lisenssejä: Creative Commons: tietoa lisensseistä & lisenssin valitsinGNU- tai MIT- tai muut lisenssit.

Dokumentointi tarkoittaa aineiston kuvaamista eli dokumentteja, jotka selittävät, mitä aineistoa projektissa on ja miten se syntynyt.

Dokumentointia ovat mm. muuttujien ja koodien selitteet (data dictionary & code books) ja readme-tiedostot. Lisäksi dokumentaatioon liittyvät tiedostojen nimeämiskäytännöt, versionhallinta sekä kansiorakenne. Dokumentointiin on olemassa stardardoituja käytäntöjä. Niiden käyttö lisää aineiston arvoa ja jatkokäytön mahdollisuuksia. 

Hyviä käytäntöjä

  • Metadatastandardit: Monet arkistot edellyttävät tietyn standardin käyttöä. Jos tiedät, missä julkaiset aineiston tutkimuksen valmistuttua, kannattaa tarkistaa standardivaatimukset.
  • Tietokantaohjelmistot & aineistonhallintaohjelmistot (esim. elektroninen laboratoriopäiväkirja).
  • Sanasto, jossa selitetään käytetyt muuttujat, termit, lyhenteet ja mittayksiköt; tai koodikirja, joka kerää ja kuvaa projektin koodit ja algoritmit.
  • Tiedostojen nimeämiskäytännöt
  • Kansiorakenne: Muista aineiston kuvailun yhteydessä, että myös tiedostonimet, tiedostokansioiden nimet sekä muuttujat ja metadata saattavat sisältää henkilötietoja tai arkaluonteista tietoa.
  • README-tiedostot, jotka kuvaavat aineistotiedostojen sisältöä tai vaikkapa koko projektia.
  • Versionhallinta.

Tallentaminen ja varmuuskopiointi tutkimushankkeen aikana

Minne aineisto tallennetaan ja varmuuskopioidaan tutkimushankkeen aikana? Kuka on vastuussa varmuuskopioinnista ja palauttamisesta? Tee suunnitelma yhteistyökumppaniesi kanssa ja varmista tietojen turvallinen siirto ja jakaminen osallisten välillä.

Hyviä käytäntöjä

Käytä Helsingin yliopiston tietotekniikkakeskuksen tallennuspalveluita, joissa on automaattinen varmuuskopiointi.

  • Kotihakemisto/ ryhmähakemisto, jota ylläpitää ja varmuuskopioi (joka tunti) HY:n tietotekniikkakeskus.
  • Muu HY:n tallennusratkaisu, esim. virtuaalipalvelin tai oma tallennuspalvelin.
  • CSC-palvelut aineiston säilyttämiseen
  • Pilvipalvelut: Käytä HY:n OneDrive for Business - tai Teams- pilvipalvelua ulkopuolisten palveluiden tai kuluttajapalveluiden (esim. Google Drive/ Dropbox) sijaan.
  • Selvitä, onko projektillasi riittävästi tallennuskapasiteettia. Lisää levytilaa saat ottamalla yhteyttä Helpdeskiin puh. 02 941 55555 tai helpdesk@helsinki.fi
  • ÄLÄ KÄYTÄ ulkoisia kovalevyjä pääasiallisena tallennusvälineenä.

Jos työskentelet arkaluontoisen aineiston kanssa:

  • Varmista, että tallennusratkaisusi on tarpeeksi turvallinen aineistollesi, esim. UMPIO (HY), Virtual storage server (HY), Private storage server (HY), Netapp- storage cluster (HY), ePouta (CSC)
  • Älä käytä pilvipalveluita tietosuojan vuoksi!
  • Salaus tarpeen mukaan. Erityisesti mobiililaitteet, kannettavat ja ulkoiset tallennuslaitteet on pyrittävä salaamaan. Esim. Cryptomaror.
  • Ota yhteyttä datasupport@helsinki.fi, jos olet epävarma aineiston suojaamisesta.

 

Aineiston pääsynhallinta

  1. Kuka (nimeä henkilö) valvoo pääsynhallintaa aineistoihin?
  2. Miten valvonta toteutuu käytännössä? Onko käytössä IT-ratkaisu (esim. salasanan takana oleva käyttöoikeus, muutosloki) tai fyysinen ratkaisu (esim. arkistokaappi/ kassakaappi)?
  3. Kenellä tutkimusryhmässä on oikeus mihinkin aineistoon?
  4. Miksi kukin käyttöoikeus (muokkaus, katselu, poisto) on myönnetty?
  5. Kerro, kuinka arkaluontoisen aineiston tietoturva ja riskit on otettu huomioon. Säilytetäänkö aineisto esimerkiksi kryptattuna? Lisävinkkejä alla.

Hyviä käytäntöjä

  • Kun käytät henkilökohtaista tai jaettua verkkolevytilaa, pystyt helposti hallitsemaan käyttöoikeuksia.
  • Arkaluontoisen aineiston pääsynhallintaan pitää kiinnittää erityistä huomiota. Aineiston käytön ja siirron pitää olla suostumuksen ehtojen mukaista, mikäli aineisto on saatu käyttöön suostumuksen perusteella.
  • Pääsynhallinta: Käytössä pitää olla lista myönnetyistä oikeuksista ja käyttäjistä sekä tapa, jolla käyttöoikeuksia aineistoon voi myös perua ja poistaa.
  • Valvonta: Miten aineiston käyttöä seurataan tutkimuksen aikana? Pystyvätkö käytetyt tekniset välineet pitämää kirjaa siitä kuka käytti, mitä aineistoa ja milloin? Kysy organisaatiosi IT-tuesta, onko tarjolla käyttö- ja muutoslokitusta.
  • Tilaturvallisuus: Tarkista työtilojen lukitukset, turvalliset säilytyskalusteet, kameravalvonta ja kulkuoikeuksien valvonta.

Aineiston avaaminen

Mikä osa aineistosta avataan / julkaistaan? Missä data-arkistossa aineiston osat julkaistaan? Milloin aineisto on saatavilla? Poistetaanko / tuhotaanko jokin aineiston osa?

Jos aineistoasi ei voida avata kokonaan tai osittain, perustele miksi, ja kerro, missä aineiston metatiedot julkaistaan.

  • Henkilötietoja sisältävät aineistot voidaan avata vain anonymisoituina. Pseudonymisoituna aineisto on edelleen henkilötietoa ja sitä EI tästä syystä voi avata, ellei siihen ole nimenomaisesti pyydetty suostumusta.
  • Henkilötietoja sisältävä aineisto voidaan jakaa joissain tapauksissa alkuperäisen käsittelyperusteen mukaiseen tarkoitukseen.  Jos suunnittelet henkilötietoja sisältävän aineiston jakamista, ota yhteyttä yliopiston tutkimuspalvelujen lakimiehiin (tutkimuksenjuristit@helsinki.fi)
  • Henkilötietoja sisältävän aineiston keskeiset metatiedot kannattaa avata, vaikka itse aineistoa ei voisi julkaista.

Hyviä käytäntöjä

  • Valitse sopivat palvelut aineistojesi jakamista ja säilytystä varten jo tutkimuksen alkuvaiheessa. Huolehdi myös siitä, että aineistosi täyttää valitsemasi palvelun asettamat vaatimukset. Valitse pysyviä tunnisteita (DOI, URN) käyttävä palvelu.
  • ”Helsingin yliopiston piirissä tuotettu, julkaistuihin tutkimustuloksiin liitetty tutkimusaineisto on lähtökohtaisesti yhteiskäyttöistä ja avointa. Aineiston löydettävyydestä ja viitattavuudesta on huolehdittava.” [Helsingin yliopiston tutkimusdatapolitiikka]
  • Missä aineisto kannattaa julkaista: Tarkista oman alasi kustantajien, tieteellisten seurojen ja rahoittajien suositukset.  Missä saman alan kollegat ovat julkaisseet aineistoja? Missä itse olet aiemmin julkaissut? 
    • Spesifejä, tietylle aineistotyypille sopivia palveluita voi etsiä esim. re3data.org palvelusta
    • Yleisiä palveluita ovat esim. IDA, Zenodo, Dryad & Figshare 
    •  Jos et voi avata aineistoa, julkaise kuitenkin tutkimusaineiston metatiedot, esim. Zenodossa tai kansallisessa Etsimessä.

 

Aineiston pitkäaikaissäilytys

Jos aineistollasi on pitkäaikaista arvoa: 

  1. Mikä osa aineistosta arkistoidaan?
  2. Missä arkistossa aineistoa säilytetään?
  3. Kuinka pitkään aineisto säilyy ko. arkistossa?
  4. Onko arkistoinnissa kuluja ja kuka niistä vastaa?
  5. Tuhotaanko joku osa aineistosta?

Arkistointisuunnitelma on osa tutkimuksen laadun ja läpinäkyvyyden varmistusta.

Hyviä käytäntöjä

  • Tutkimuksessa syntyvän aineistolle säilytysaika on tärkeä miettiä ja sopia sitä mukaan kuin aineistoa syntyy. 
  • Muista tarkistaa kustantajan vaatimukset julkaisuun liittyvän aineiston säilyttämisajasta.
  • Muista tarkistaa rahoittaja- ja alakohtaiset suositukset.
  • Perinteisesti arkaluontoinen aineisto kehotetaan tuhoamaan tutkimushankkeen jälkeen. Nykyisen henkilötietolainsäädännön (GDPR) mukaan tämä ei kuitenkaan ole useinkaan tarpeen, mutta tutkittaville annettavassa informaatiossa tulee mainita tietojen säilytys ja arkistointi sekä mihin niiden kesto perustuu. Helsingin yliopistolla on tarjolla neuvontaa turvallisten tallennusratkaisujen valintaan. Jos olet säilyttämässä pitkään arkaluonteista henkilötietoa, ota yhteyttä: datasupport@helsinki.fi
  • Näytteisiin liittyvä aineisto voidaan arkistoida biopankkiin.
  • Kansallisesti arvokkaille aineistoille on tarjolla Fairdata-PAS -palvelu aineistojen säilyttämiseksi kymmenistä satoihin vuosiin. Lisätietoja HY:n FAIRdata-PAS palvelusta täällä.

Kuka vastaa aineistonhallintaan liittyvistä tehtävistä? Kuka vastaa aineiston tietosuojasta ja -turvasta sekä näiden valvonnasta? Mitä resursseja (ajalliset & työmäärä) aineistonhallintaan tarvitaan?

Mitä paremmin tutkimusaineiston hallinta on suunniteltu ja toteutettu jo tutkimushankkeen alussa ja sen aikana, sitä vähemmän työtä tarvitaan aineiston avaamisessa ja arkistoinnissa.

Hyviä käytäntöjä

  • Onko aineistonhallinta tietyn henkilön vastuulla vai onko se koko tutkimusryhmän vastuulla?  Kuka vastaa siitä, että kaikki ovat saaneet tarpeellisen koulutuksen ja yhteisistä käytänteistä on sovittu?
  • Arvioi, edellyttääkö aineiston hallinnointi, säilyttäminen ja jakaminen asiantuntija-apua / palkattua työntekijää.
  • Anna arvio ajasta, joka menee data-aineiston (ei tulosten) siistimiseen ja dokumentointiin julkaisukuntoon. Esimerkiksi: siihen käytetään viikoittain aikaa 1-2 h, kuukaudessa päivä, 1-2 viikkoa ennen arkistointia tms.
    • Aineiston siistiminen ja dokumentointi tarkoittaa muun muassa metatiedon tuottamista (kohta 3.1), henkilötietoa sisältävän aineiston anonymisointia, aineiston valintaa, järjestelyä ja siirtämistä.
    • On suositeltavaa pitää dokumentointi ajan tasalla koko tutkimuksen elinkaaren ajan.
  • Erittele aineistonhallintakustannukset budjetissa rahoittajan ohjeiden mukaisesti.