Data rengöring

Under ett forskningsprojekt samlas alla möjliga typer av filer på olika lagringsplatser, så det är en bra idé att rensa upp då och då. Finns det något som kan raderas eller lagras på ett mer genomtänkt sätt? Vissa lagringsplatser är mer kostnadseffektiva och miljövänliga än andra. Och skulle det vara möjligt – och önskvärt – att dela en del av data med andra? Nedan hittar du våra bästa tips för att rensa upp i dina data.
Datarensningsveckan

Välkommen att rensa forskningsdata tillsammans med oss!

Kom och träffa oss fredagen den 29 maj kl. 10.00–12.00 på alla fyra campusen om du har frågor om rensning, lagring eller delning av data. Du kan också ställa allmänna frågor om hantering av forskningsdata, till exempel om hur man upprättar en datahanteringsplan (DMP).

Våra serviceställen under datarensningsveckan fredagen den 29 maj kl. 10.00–12.00:

Centrumcampus: Kajsahuset, Handledningshörnan, 3:e våningen
Gumtäkt: Bibliotekets grupprum Polaris (G108a)
Vik: EE-byggnaden (Agnes Sjöbergs gata 2), lobbyn på 1:a våningen
Mejlans: Biomedicum, mötesrummet Kuutti (B328a1). Rummet ligger högst upp i trappan i B-flygeln på 3:e våningen.

Varför ska jag rengör forskningsdata?

Med data rengöring avses i allmänhet åtgärder som syftar till att förbättra datakvaliteten och öka datans begriplighet. Dessa åtgärder kan till exempel innefatta att radera onödiga eller oanvändbara filer, standardisera namngivningskonventioner för filer samt skapa en tydlig och lämplig mappstruktur.

Lagring av data förbrukar alltid resurser. Av denna anledning bör lagring alltid tjäna ett tydligt syfte. Sådana syften kan till exempel vara vidare användning av data eller verifiering av resultat. Det är meningslöst att behålla filer som inte längre tjänar något syfte. Onödiga kopior och föråldrade versioner bör därför tas bort från data. Det kan också vara bättre att radera filer helt om de är så dåligt beskrivna att deras syfte eller sammanhang inte längre kan fastställas.

Om dina data innehåller personuppgifter är det av yttersta vikt att säkerställa (utöver en lämplig lagringsplats) att filer som innehåller personuppgifter raderas enligt vad som ursprungligen utlovats till forskningsdeltagarna i integritetsmeddelandet.

Dessa åtgärder förbättrar förståeligheten för hela datasetet och dess potential för framtida användning. Datarensning säkerställer också ett hållbart och etiskt bevarande av datasetet.

Var ska jag lagra data i forskningsprocessens olika skeden?

Lagring och bevarande av forskningsdata bör planeras utifrån forskningens olika faser. Väl valda lagrings- och bevaringsplatser säkerställer forskningsdatas säkerhet, sökbarhet och användbarhet under hela forskningsprocessen, och underlättar dessutom återanvändningen av data.

 

1. När uppgifter samlas in, behandlas eller analyseras

Under forskningens aktiva fas smidiga platser för att lagra och dela data är till exempel

  • gruppdiskar (till exempel P-disk)
  • OneDrive
  • Teams 

För kod och skript är en versionshanteringstjänst särskilt användbar, såsom 

  • GitHub
  • GitLab

För hantering av känsliga data erbjuder en säker miljö till exempel

  • Helsingfors universitets tjänst Umpio
  • CSC:s lösningar: ePouta, SD Connect and SD Desktop

Under analysfasen kan det även krävas ytterligare datorkapacitet, och både universitetet och CSC erbjuder specialanpassade lösningar för detta. på hur man lagrar och delar data.
 

2. När uppgifterna inte längre redigeras

När forskningsdata är färdiga bör de arkiveras väl dokumenterade för långtidsbevarande i ett pålitligt dataarkiv, såsom

Om det finns ett ämnesspecifikt arkiv, till exempel en genbank eller en språkbank, bör detta användas. Vissa tjänster är avsedda för bevarande på medellång sikt, såsom UH Databanken (5–15 år), medan andra arkiverar data för kommande generationer, till exempel UH Dataarkivet. I vissa tjänster är data fritt tillgängliga för alla (till exempel Zenodo), medan åtkomsten i andra är begränsad (som i UH Databanken).

Väl valda lagringslösningar säkerställer forskningsdatas säkerhet, sökbarhet och användbarhet under hela forskningsprocessen, och de främjar dessutom återanvändningen av datamängder. Läs mer om .

Hur skapar jag en välorganiserad mappstruktur?

En välorganiserad mappstruktur i ett forskningsprojekt underlättar reproducerbarhet och samarbete. En välfungerande mappstruktur säkerställer att informationen är lättillgänglig för andra projektmedlemmar – eller till och med för dig själv – om ett år (eller till och med en vecka) från nu. Bifogat finns ett exempel som du kan anpassa och ändra efter ditt projekts storlek och ämne.

Några grundläggande regler:

Separera källmaterial (rådata), bearbetade data och resultat.
Kom ihåg att spara en oförändrad kopia av källdata/rådata.
Se till att filnamnen är informativa och konsekventa.
Skapa en README.txt-fil som förklarar var varje dataset finns – särskilt om data lagras på olika platser.

Hur hittar jag på ett bra filnamn?

Ett bra filnamn är tydligt, informativt och konsekvent. Syftet är att man med ett ögonkast ska kunna se vad filen innehåller, vad den handlar om och i vilket skede av forskningsprocessen den skapades. Välvalda filnamn sparar tid, minskar risken för fel och förbättrar forskningens reproducerbarhet. När du skapar ett filnamn, fråga dig själv: Kan jag förstå syftet med den här filen utan att öppna den?

Ett bra filnamn är:

  • beskrivande men kortfattat
  • enhetligt med andra filer i projektet
  • tekniskt säkert, så att filnamnen inte förstörs när filer överförs mellan system
  • begripligt även efter att en längre tid har gått

Exempel på bra filnamn:

  • survey_responses_raw_2024-03-12.csv
  • regression_results_income_model1.RData
  • interview_codes_thematic_v1.xlsx

Undvik filnamn som inte tydligt anger innehållet, såsom data.csv, analysis_new.xlsx eller final.docx.
 

1. Använd en enhetlig struktur

Välj en enda struktur för filnamngivning och tillämpa den på alla filer. En vanlig och effektiv modell är: projektbeskrivning_fas_datum_version.filändelse

Exempel:

  • klimatstudie_temperatur_bearbetad_2024-05-01_v2.csv

Konsekvens är viktigare än perfektion: att använda samma logik gör det lättare att snabbt förstå filerna, även månader senare.

 

2. Undvik specialtecken och mellanslag

Använd:

  • gemener
  • understreck (_) eller bindestreck (-)

Undvik:

  • mellanslag
  • skandinaviska tecken (ä, ö)
  • specialtecken (?, %, &, #)

Att följa dessa riktlinjer bidrar till att förebygga problem när data överförs mellan operativsystem, bearbetas med kommandoradsverktyg eller analyseras med hjälp av kodbaserade metoder.

 

3. Ange datum i standardformat

Om tidpunkten är relevant ska du använda formatet ÅÅÅÅ-MM-DD.

Exempel:

  • experiment_log_2024-11-07.txt

 

4. Versionsnamngivning

Ange en versionsidentifierare i filnamnen när filer uppdateras över tid, till exempel _v1, _v2, _v3 eller _001, _002, _003.

Exempel:

  • manuscript_methods_v3.docx

Undvik vaga filnamn, såsom final.docx eller final_really_final_new.docx.

Om projektet är stort eller involverar flera bidragsgivare rekommenderas starkt att man använder ett versionshanteringssystem (t.ex. ).

Hur kan jag radera data på ett säkert sätt?

Att bara radera eller skriva över en fil innebär oftast inte att den raderas permanent; i händerna på en expert kan dessa filer fortfarande återställas. Filradering måste därför utföras noggrant för att säkerställa att filerna verkligen och pålitligt tas bort.

När du raderar filer måste du också se till att det inte finns några säkerhetskopior av de filer som ska raderas som kan återställas vid ett senare tillfälle. För äldre hårddiskar och bärbara lagringsenheter kan det enda tillförlitliga sättet att radera filer vara att fysiskt förstöra hela enheten.

Det finns olika verktyg tillgängliga för att säkert radera enskilda filer på operativsystemen Windows, macOS och Linux. Se för mer information.