UKK: Datan siivoaminen

Tutkimusprojektin aikana monenlaista tiedostoa kertyy eri talletuspaikkoihin, joten aika ajoin on hyvä siivota nurkkia. Voiko jotain poistaa tai säilyttää järkevämmin? Toiset säilytyspaikat ovat taloudellisesti ja ekologisesti parempia kuin toiset. Entä olisiko jotain dataa mahdollista — ja toivottavaakin — jakaa myös muiden kanssa? Katso alta parhaat vinkkimme datan siivoamiseen.
Datan siivousviikko

Tervetuloa siivoamaan tutkimusaineistoja yhdessä!

Tule tapaamaan meitä perjantaina 29.5. klo 10–12 kaikilla neljällä kampuksella ja kysymään aineistojen siivoamisesta, säilyttämisestä tai jakamisesta. Voit myös kysyä muista tutkimusdatojen hallintaan liittyvistä asioista, kuten vaikkapa aineistonhallintasuunnitelman (DMP) tekemisestä.

Siivousviikon palvelupisteemme perjantaina 29.5. klo 10–12:

  • Keskusta: Kaisa-talon Ohjauskulma, 3. kerros
  • Kumpula: Kirjaston ryhmätyöhuone Polaris (G108a)
  • Viikki: EE-rakennus (Agnes Sjöbergin katu 2), 1. kerroksen aula
  • Meilahti: Biomedicumin kokoushuone Kuutti (B328a1). Kokoushuone on heti B-siiven portaiden yläpäässä 3. kerroksessa.
Miksi tutkimusdataa kannattaa siivota?

Datan siivoamisella tarkoitetaan yleensä toimenpiteitä, joiden tarkoituksena on parantaa datan laatua sekä ymmärrettävyyttä. Näitä toimenpiteitä voivat olla esimerkiksi turhien tai käyttökelvottomien tiedostojen poistaminen, eri tiedostojen nimeämiskäytäntöjen yhdenmukaistaminen sekä selkeän ja tarkoituksenmukaisen kansiorakenteen luominen. 

Datan säilyttäminen kuluttaa aina resursseja. Tästä syystä säilyttäminen tulisi tapahtua aina jotakin selkeää käyttötarkoitusta varten. Tällaisia käyttötarkoituksia voivat olla esimerkiksi datan jatkokäyttö tai tulosten verifioiminen. Ei ole mielekästä säilyttää tiedostoja, joilla ei ole enää mitään käyttöä. Turhat kopiot sekä tarpeettomat vanhat versiot tulisikin siivota datasta pois. Myös sellaiset tiedostot, jotka ovat kuvailtu niin heikosti, ettei niiden käyttötarkoitusta tai asiayhteyttä pystytä enää selvittämään, on ehkä parempi kokonaan poistaa. 

Jos datasi sisältää henkilötietoja, on ensiarvoisen tärkeää huolehtia (asianmukaisen tallennuspaikan lisäksi) myös siitä, että henkilötietoja sisältävät tiedostot poistetaan kuten tutkittaville on alun perin tietosuojailmoituksessa luvattu. 

Näin parannetaan koko data-aineiston ymmärrettävyyttä sekä jatkokäyttömahdollisuuksia. Datan siivoamisella myös varmistetaan data-aineiston kestävä ja eettinen säilytys.

Missä dataa kannattaa pitää tutkimuksen eri vaiheissa?

Tutkimusdatan tallennus ja säilytys kannattaa suunnitella tutkimuksen eri vaiheiden mukaan. Hyvin valitut tallennus- ja säilytyspaikat varmistavat tutkimusdatan turvallisuuden, löydettävyyden ja hyödynnettävyyden tutkimusprosessin aikana, ja ne edistävät myös aineistojen jatkokäyttöä. 


1. Kun dataa kerätään, muokataan tai analysoidaan

Tutkimuksen aktiivivaiheessa käteviä paikkoja tallentaa ja jakaa dataa ovat esimerkiksi:

  • ryhmälevyt (kuten P-asema)
  • OneDrive
  • Teams 

Koodille ja skripteille sopivat hyvin versionhallintaan erikoistuneet palvelut, kuten:

  • GitHub
  • GitLab

Sensitiiviselle datalle turvallisen ympäristön tarjoavat:

  • Helsingin yliopiston Umpio
  • CSC:n ratkaisut: ePouta, SD Connect ja SD Desktop

Analyysivaiheessa saatetaan tarvita myös laskentatehoa, mihin yliopistolla ja CSC:llä on omia ratkaisuja. 

Katso lisätietoa .
 

2. Kun dataa ei enää muokata

Valmis tutkimusdata kannattaa arkistoida hyvin kuvattuna pitkäaikaissäilytystä varten sellaiseen luotettavaan palveluun, joka tarjoaa aineistolle pysyvän tunnisteen (esim. DOI). Tällaisia palveluita ovat esimerkiksi: 

Jos aineistolle on tarjolla alanmukainen säilytyspalvelu, kuten geenipankki tai kielipankki, sitä kannattaa käyttää. Osa palveluista on tarkoitettu keskipitkään säilytysaikaan, kuten HY:n Datapankki (5–15 vuotta), kun taas toisissa, kuten HY Data-arkistossa, dataa arkistoidaan jopa tuleville sukupolville. Joissain palveluissa data on vapaasti kaikkien saatavilla, kuten Zenodossa, ja toisissa jakamista on rajoitettu (esimerkiksi HY Datapankki). 

Lue lisää .

Millainen on toimiva kansiorakenne?

Toimiva kansiorakenne tutkimusprojektissa tukee toistettavuutta ja yhteistyötä. Hyvä kansiorakenne mahdollistaa tiedon löytyvyyden helposti projektin muille henkilöille tai sinulle itsellesi vuoden (tai jopa viikon) päästä. Liitteenä on esimerkki, jota voit soveltaa ja muokata projektin koon ja aiheen mukaan.

Muutama perussääntö:

  • Erota toisistaan lähtöaineisto (raakadata), käsitelty data ja tulokset.
  • Muista säilyttää muokkaamaton kopio lähtödatasta/raakadatasta.
  • Pidä tiedostojen nimet informatiivisina ja yhdenmukaisina.
  • Tee README.txt-tiedosto, joka kertoo mitä dataa missäkin on — varsinkin, jos dataa on eri tallennusratkaisuissa.
Millainen on hyvä nimi tiedostolle?

Hyvä tiedostonimi on selkeä, informatiivinen ja johdonmukainen. Sen tarkoitus on kertoa yhdellä silmäyksellä, mitä tiedosto sisältää, mihin se liittyy ja missä vaiheessa tutkimusprosessia se on syntynyt. Hyvin nimetyt tiedostot säästävät aikaa, vähentävät virheitä ja parantavat tutkimuksen toistettavuutta. Kun siis luot tiedostonimen, kysy itseltäsi: Ymmärränkö tämän tiedoston tarkoituksen ilman, että avaan sen?

Hyvä tiedostonimi on:

  • kuvaileva, mutta ytimekäs
  • johdonmukainen projektin muiden tiedostojen kanssa
  • teknisesti turvallinen, jolloin tiedostojen nimet eivät hajoa, vaikka tiedostoja siirretään järjestämästä toiseen
  • ymmärrettävä myös ajan kuluttua

Esimerkkejä hyvistä tiedostonimistä:

  • survey_responses_raw_2024-03-12.csv
  • regression_results_income_model1.RData
  • interview_codes_thematic_v1.xlsx

Vältä nimiä, joista ei selviä sisältö, kuten data.csv, analysis_new.xlsx tai final.docx.
 

1. Käytä johdonmukaista rakennetta

Valitse yksi tiedostonimirakenne ja käytä sitä kaikissa tiedostoissa. Yleinen ja toimiva malli on: projekti_kuvaus_vaihe_päivämäärä_versio.tiedostopääte

Esimerkiksi:

  • climate_study_temperature_processed_2024-05-01_v2.csv

Johdonmukaisuus on tärkeämpää kuin täydellisyys: sama logiikka auttaa hahmottamaan tiedostot nopeasti myös kuukausien päästä.

 

2. Vältä erikoismerkkejä ja välilyöntejä

Käytä:

  • pieniä kirjaimia
  • alaviivaa (_) tai väliviivaa (-)

Vältä:

  • välilyöntejä
  • skandinaavisia merkkejä (ä, ö)
  • erikoismerkkejä (?, %, &, #)

Tämä ehkäisee ongelmia esimerkiksi tilanteissa, joissa aineistoa siirretään eri käyttöjärjestelmiin, muokataan komentorivipohjaisilla työkaluilla, tai datan analyysissa käytetään koodeja.

 

3. Lisää päivämäärä ISO-standardimuodossa

Jos ajankohta on olennainen, käytä muotoa YYYY-MM-DD.

Esimerkiksi:

  • experiment_log_2024-11-07.txt

Kansainvälisissä projekteissa on tärkeä sopia missä muodossa päivämäärä ilmoitetaan. ISO-standardi käytettäessä tiedostot listautuvat aikajärjestyksessä.

 

4. Versioiden nimeäminen

Tiedostonimiin kannattaa sisällyttää versiotunnus, jos tiedosto muuttuu ajan myötä, kuten _v1, _v2, _v3 tai _001, 002, 003.

Esimerkiksi:

  • manuscript_methods_v3.docx

Vältä epämääräisiä nimiä, kuten final.docx tai final_really_final_new.docx.

Jos projekti on suuri tai siihen osallistuu monta toimijaa, suosittelemme käyttämään versionhallintajärjestelmää (esim. ).

Miten poistan luotettavasti dataa?

Yksinkertainen tiedoston poistaminen tai ylikirjoittaminen ei yleensä poista tiedostoa lopullisesti, vaan nämä tiedostot on mahdollista osaavissa käsissä vielä palauttaa. Tiedostojen poistaminen tuleekin tehdä huolellisesti, jotta tiedostot todellakin poistetaan varmasti ja luotettavasti. 

Tiedostoja poistettaessa tulee huolehtia myös siitä, ettei poistettavia tiedostoista ole olemassa varmuuskopioita, jotka olisi vielä myöhemmin mahdollista palauttaa. Vanhempien kovalevyjen sekä siirrettävien tallennuslaitteiden kohdalla ainoa luotettava tapa tiedostojen poistamiseen voikin olla koko levyn fyysinen tuhoaminen. 

Yksittäisten tiedostojen turvalliseen poistamiseen löytyy eri työkalut niin Windows-, MacOS-, kuin Linux-käyttöjärjestelmistä. Katso näistä lisää .