Tervetuloa siivoamaan tutkimusaineistoja yhdessä!
Tule tapaamaan meitä perjantaina 29.5. klo 10–12 kaikilla neljällä kampuksella ja kysymään aineistojen siivoamisesta, säilyttämisestä tai jakamisesta. Voit myös kysyä muista tutkimusdatojen hallintaan liittyvistä asioista, kuten vaikkapa aineistonhallintasuunnitelman (DMP) tekemisestä.
Siivousviikon palvelupisteemme perjantaina 29.5. klo 10–12:
Datan siivoamisella tarkoitetaan yleensä toimenpiteitä, joiden tarkoituksena on parantaa datan laatua sekä ymmärrettävyyttä. Näitä toimenpiteitä voivat olla esimerkiksi turhien tai käyttökelvottomien tiedostojen poistaminen, eri tiedostojen nimeämiskäytäntöjen yhdenmukaistaminen sekä selkeän ja tarkoituksenmukaisen kansiorakenteen luominen.
Datan säilyttäminen kuluttaa aina resursseja. Tästä syystä säilyttäminen tulisi tapahtua aina jotakin selkeää käyttötarkoitusta varten. Tällaisia käyttötarkoituksia voivat olla esimerkiksi datan jatkokäyttö tai tulosten verifioiminen. Ei ole mielekästä säilyttää tiedostoja, joilla ei ole enää mitään käyttöä. Turhat kopiot sekä tarpeettomat vanhat versiot tulisikin siivota datasta pois. Myös sellaiset tiedostot, jotka ovat kuvailtu niin heikosti, ettei niiden käyttötarkoitusta tai asiayhteyttä pystytä enää selvittämään, on ehkä parempi kokonaan poistaa.
Jos datasi sisältää henkilötietoja, on ensiarvoisen tärkeää huolehtia (asianmukaisen tallennuspaikan lisäksi) myös siitä, että henkilötietoja sisältävät tiedostot poistetaan kuten tutkittaville on alun perin tietosuojailmoituksessa luvattu.
Näin parannetaan koko data-aineiston ymmärrettävyyttä sekä jatkokäyttömahdollisuuksia. Datan siivoamisella myös varmistetaan data-aineiston kestävä ja eettinen säilytys.
Tutkimusdatan tallennus ja säilytys kannattaa suunnitella tutkimuksen eri vaiheiden mukaan. Hyvin valitut tallennus- ja säilytyspaikat varmistavat tutkimusdatan turvallisuuden, löydettävyyden ja hyödynnettävyyden tutkimusprosessin aikana, ja ne edistävät myös aineistojen jatkokäyttöä.
1. Kun dataa kerätään, muokataan tai analysoidaan
Tutkimuksen aktiivivaiheessa käteviä paikkoja tallentaa ja jakaa dataa ovat esimerkiksi:
Koodille ja skripteille sopivat hyvin versionhallintaan erikoistuneet palvelut, kuten:
Sensitiiviselle datalle turvallisen ympäristön tarjoavat:
Analyysivaiheessa saatetaan tarvita myös laskentatehoa, mihin yliopistolla ja CSC:llä on omia ratkaisuja.
Katso lisätietoa
2. Kun dataa ei enää muokata
Valmis tutkimusdata kannattaa arkistoida hyvin kuvattuna pitkäaikaissäilytystä varten sellaiseen luotettavaan palveluun, joka tarjoaa aineistolle pysyvän tunnisteen (esim. DOI). Tällaisia palveluita ovat esimerkiksi:
Jos aineistolle on tarjolla alanmukainen säilytyspalvelu, kuten geenipankki tai kielipankki, sitä kannattaa käyttää. Osa palveluista on tarkoitettu keskipitkään säilytysaikaan, kuten HY:n Datapankki (5–15 vuotta), kun taas toisissa, kuten HY Data-arkistossa, dataa arkistoidaan jopa tuleville sukupolville. Joissain palveluissa data on vapaasti kaikkien saatavilla, kuten Zenodossa, ja toisissa jakamista on rajoitettu (esimerkiksi HY Datapankki).
Lue lisää
Toimiva kansiorakenne tutkimusprojektissa tukee toistettavuutta ja yhteistyötä. Hyvä kansiorakenne mahdollistaa tiedon löytyvyyden helposti projektin muille henkilöille tai sinulle itsellesi vuoden (tai jopa viikon) päästä. Liitteenä on esimerkki, jota voit soveltaa ja muokata projektin koon ja aiheen mukaan.
Muutama perussääntö:
Hyvä tiedostonimi on selkeä, informatiivinen ja johdonmukainen. Sen tarkoitus on kertoa yhdellä silmäyksellä, mitä tiedosto sisältää, mihin se liittyy ja missä vaiheessa tutkimusprosessia se on syntynyt. Hyvin nimetyt tiedostot säästävät aikaa, vähentävät virheitä ja parantavat tutkimuksen toistettavuutta. Kun siis luot tiedostonimen, kysy itseltäsi: Ymmärränkö tämän tiedoston tarkoituksen ilman, että avaan sen?
Hyvä tiedostonimi on:
Esimerkkejä hyvistä tiedostonimistä:
Vältä nimiä, joista ei selviä sisältö, kuten data.csv, analysis_new.xlsx tai final.docx.
1. Käytä johdonmukaista rakennetta
Valitse yksi tiedostonimirakenne ja käytä sitä kaikissa tiedostoissa. Yleinen ja toimiva malli on: projekti_kuvaus_vaihe_päivämäärä_versio.tiedostopääte
Esimerkiksi:
Johdonmukaisuus on tärkeämpää kuin täydellisyys: sama logiikka auttaa hahmottamaan tiedostot nopeasti myös kuukausien päästä.
2. Vältä erikoismerkkejä ja välilyöntejä
Käytä:
Vältä:
Tämä ehkäisee ongelmia esimerkiksi tilanteissa, joissa aineistoa siirretään eri käyttöjärjestelmiin, muokataan komentorivipohjaisilla työkaluilla, tai datan analyysissa käytetään koodeja.
3. Lisää päivämäärä ISO-standardimuodossa
Jos ajankohta on olennainen, käytä muotoa YYYY-MM-DD.
Esimerkiksi:
Kansainvälisissä projekteissa on tärkeä sopia missä muodossa päivämäärä ilmoitetaan. ISO-standardi käytettäessä tiedostot listautuvat aikajärjestyksessä.
4. Versioiden nimeäminen
Tiedostonimiin kannattaa sisällyttää versiotunnus, jos tiedosto muuttuu ajan myötä, kuten _v1, _v2, _v3 tai _001, 002, 003.
Esimerkiksi:
Vältä epämääräisiä nimiä, kuten final.docx tai final_really_final_new.docx.
Jos projekti on suuri tai siihen osallistuu monta toimijaa, suosittelemme käyttämään versionhallintajärjestelmää (esim.
Yksinkertainen tiedoston poistaminen tai ylikirjoittaminen ei yleensä poista tiedostoa lopullisesti, vaan nämä tiedostot on mahdollista osaavissa käsissä vielä palauttaa. Tiedostojen poistaminen tuleekin tehdä huolellisesti, jotta tiedostot todellakin poistetaan varmasti ja luotettavasti.
Tiedostoja poistettaessa tulee huolehtia myös siitä, ettei poistettavia tiedostoista ole olemassa varmuuskopioita, jotka olisi vielä myöhemmin mahdollista palauttaa. Vanhempien kovalevyjen sekä siirrettävien tallennuslaitteiden kohdalla ainoa luotettava tapa tiedostojen poistamiseen voikin olla koko levyn fyysinen tuhoaminen.
Yksittäisten tiedostojen turvalliseen poistamiseen löytyy eri työkalut niin Windows-, MacOS-, kuin Linux-käyttöjärjestelmistä. Katso näistä lisää