Välkommen att rensa forskningsdata tillsammans med oss!
Kom och träffa oss fredagen den 29 maj kl. 10.00–12.00 på alla fyra campusen om du har frågor om rensning, lagring eller delning av data. Du kan också ställa allmänna frågor om hantering av forskningsdata, till exempel om hur man upprättar en datahanteringsplan (DMP).
Våra serviceställen under datarensningsveckan fredagen den 29 maj kl. 10.00–12.00:
Centrumcampus: Kajsahuset, Handledningshörnan, 3:e våningen
Gumtäkt: Bibliotekets grupprum Polaris (G108a)
Vik: EE-byggnaden (Agnes Sjöbergs gata 2), lobbyn på 1:a våningen
Mejlans: Biomedicum, mötesrummet Kuutti (B328a1). Rummet ligger högst upp i trappan i B-flygeln på 3:e våningen.
Med data rengöring avses i allmänhet åtgärder som syftar till att förbättra datakvaliteten och öka datans begriplighet. Dessa åtgärder kan till exempel innefatta att radera onödiga eller oanvändbara filer, standardisera namngivningskonventioner för filer samt skapa en tydlig och lämplig mappstruktur.
Lagring av data förbrukar alltid resurser. Av denna anledning bör lagring alltid tjäna ett tydligt syfte. Sådana syften kan till exempel vara vidare användning av data eller verifiering av resultat. Det är meningslöst att behålla filer som inte längre tjänar något syfte. Onödiga kopior och föråldrade versioner bör därför tas bort från data. Det kan också vara bättre att radera filer helt om de är så dåligt beskrivna att deras syfte eller sammanhang inte längre kan fastställas.
Om dina data innehåller personuppgifter är det av yttersta vikt att säkerställa (utöver en lämplig lagringsplats) att filer som innehåller personuppgifter raderas enligt vad som ursprungligen utlovats till forskningsdeltagarna i integritetsmeddelandet.
Dessa åtgärder förbättrar förståeligheten för hela datasetet och dess potential för framtida användning. Datarensning säkerställer också ett hållbart och etiskt bevarande av datasetet.
Lagring och bevarande av forskningsdata bör planeras utifrån forskningens olika faser. Väl valda lagrings- och bevaringsplatser säkerställer forskningsdatas säkerhet, sökbarhet och användbarhet under hela forskningsprocessen, och underlättar dessutom återanvändningen av data.
1. När uppgifter samlas in, behandlas eller analyseras
Under forskningens aktiva fas smidiga platser för att lagra och dela data är till exempel
För kod och skript är en versionshanteringstjänst särskilt användbar, såsom
För hantering av känsliga data erbjuder en säker miljö till exempel
Under analysfasen kan det även krävas ytterligare datorkapacitet, och både universitetet och CSC erbjuder specialanpassade lösningar för detta.
2. När uppgifterna inte längre redigeras
När forskningsdata är färdiga bör de arkiveras väl dokumenterade för långtidsbevarande i ett pålitligt dataarkiv, såsom
Om det finns ett ämnesspecifikt arkiv, till exempel en genbank eller en språkbank, bör detta användas. Vissa tjänster är avsedda för bevarande på medellång sikt, såsom UH Databanken (5–15 år), medan andra arkiverar data för kommande generationer, till exempel UH Dataarkivet. I vissa tjänster är data fritt tillgängliga för alla (till exempel Zenodo), medan åtkomsten i andra är begränsad (som i UH Databanken).
Väl valda lagringslösningar säkerställer forskningsdatas säkerhet, sökbarhet och användbarhet under hela forskningsprocessen, och de främjar dessutom återanvändningen av datamängder. Läs mer om
En välorganiserad mappstruktur i ett forskningsprojekt underlättar reproducerbarhet och samarbete. En välfungerande mappstruktur säkerställer att informationen är lättillgänglig för andra projektmedlemmar – eller till och med för dig själv – om ett år (eller till och med en vecka) från nu. Bifogat finns ett exempel som du kan anpassa och ändra efter ditt projekts storlek och ämne.
Några grundläggande regler:
Separera källmaterial (rådata), bearbetade data och resultat.
Kom ihåg att spara en oförändrad kopia av källdata/rådata.
Se till att filnamnen är informativa och konsekventa.
Skapa en README.txt-fil som förklarar var varje dataset finns – särskilt om data lagras på olika platser.
Ett bra filnamn är tydligt, informativt och konsekvent. Syftet är att man med ett ögonkast ska kunna se vad filen innehåller, vad den handlar om och i vilket skede av forskningsprocessen den skapades. Välvalda filnamn sparar tid, minskar risken för fel och förbättrar forskningens reproducerbarhet. När du skapar ett filnamn, fråga dig själv: Kan jag förstå syftet med den här filen utan att öppna den?
Ett bra filnamn är:
Exempel på bra filnamn:
Undvik filnamn som inte tydligt anger innehållet, såsom data.csv, analysis_new.xlsx eller final.docx.
1. Använd en enhetlig struktur
Välj en enda struktur för filnamngivning och tillämpa den på alla filer. En vanlig och effektiv modell är: projektbeskrivning_fas_datum_version.filändelse
Exempel:
Konsekvens är viktigare än perfektion: att använda samma logik gör det lättare att snabbt förstå filerna, även månader senare.
2. Undvik specialtecken och mellanslag
Använd:
Undvik:
Att följa dessa riktlinjer bidrar till att förebygga problem när data överförs mellan operativsystem, bearbetas med kommandoradsverktyg eller analyseras med hjälp av kodbaserade metoder.
3. Ange datum i standardformat
Om tidpunkten är relevant ska du använda formatet ÅÅÅÅ-MM-DD.
Exempel:
4. Versionsnamngivning
Ange en versionsidentifierare i filnamnen när filer uppdateras över tid, till exempel _v1, _v2, _v3 eller _001, _002, _003.
Exempel:
Undvik vaga filnamn, såsom final.docx eller final_really_final_new.docx.
Om projektet är stort eller involverar flera bidragsgivare rekommenderas starkt att man använder ett versionshanteringssystem (t.ex.
Att bara radera eller skriva över en fil innebär oftast inte att den raderas permanent; i händerna på en expert kan dessa filer fortfarande återställas. Filradering måste därför utföras noggrant för att säkerställa att filerna verkligen och pålitligt tas bort.
När du raderar filer måste du också se till att det inte finns några säkerhetskopior av de filer som ska raderas som kan återställas vid ett senare tillfälle. För äldre hårddiskar och bärbara lagringsenheter kan det enda tillförlitliga sättet att radera filer vara att fysiskt förstöra hela enheten.
Det finns olika verktyg tillgängliga för att säkert radera enskilda filer på operativsystemen Windows, macOS och Linux. Se