F&S: Metadata

Frågor och svar om Helsingfors universitets Datakatalog, metadata och bevarande av forskningsdata.
Vad är metadata?

Metadata, eller beskrivande data, innehåller som namnet antyder information om data. Typiska metadata är namnet på data, upphovsmännen, tidpunkten för skapandet, datatypen, beskrivningar av de variabler som används eller den programvara som kan behövas för att öppna data. Metadata kan delas in i metadata som stöder upptäckbarheten av data och metadata som stöder begripligheten eller återanvändningen av data. Exempel på metadata som stöder upptäckbarheten är namnet på skaparen, disciplinen och nyckelord som beskriver data. Metadata som stöder återanvändningen av data omfattar förklaringar av de variabler som används och information om hur data samlades in.  

Omfattande metadata om forskningsdata är av avgörande betydelse för vidareutnyttjandet av data.

Vad är en bra titel för forskningsdata?

En bra titel är tydlig, informativ och identifierar uppgifterna. Den ger en omedelbar uppfattning om vad uppgifterna innehåller och vilken typ av forskning det rör sig om. Här följer några förslag på hur du kan skriva en bra titel:

  1. Var exakt och tydlig: Försök att beskriva datainnehållet så exakt som möjligt. Undvik allmänna och vaga uttryck.
  2. Använd nyckelord: Inkludera nyckeltermer eller nyckelord som beskriver ämnet för uppgifterna och som kan hjälpa andra att hitta uppgifterna via sökmotorer.  
  3. Nämn tidsperiod och geografiskt område: Om uppgifterna rör en viss tidsperiod eller ett visst geografiskt område ska du ange detta i titeln.
  4. Undvik förkortningar och teknisk jargong: Använd termer som är begripliga för en allmän publik, såvida inte uppgifterna är avsedda för en specifik eller professionell publik.
  5. Håll titeln kortfattad: Sikta på en titel som är kort och kärnfull, men ändå tillräckligt informativ.

Titlar som följer dessa riktlinjer skulle till exempel kunna vara  

  • Fysisk aktivitet bland finska ungdomar 2020-2022
  • Utbildningens inverkan på sysselsättningen: en longitudinell studie i Finland 2010-2020
  • Klimatförändringarnas inverkan på den biologiska mångfalden på Grönland 1990-2020

Undvik titlar som säger lite om själva datan, till exempel ”All data up to 2000” eller ”E. coli-mätningar”.

Vad är en bra beskrivning/sammanfattning för forskningsdata?

Viktiga punkter i sammanfattningen för forskningsdata:

  1. Forskningsdatans innehåll
    • Vad handlar forskningsdata om?
    • De viktigaste variablerna, temana eller fenomenen som omfattas av data.
    • Datans storlek och struktur (t.ex. kvantitativa vs. kvalitativa data, filtyper).
  2. Forskningsmetoder och datainsamling
    • Hur samlades uppgifterna in (t.ex. frågeformulär, intervjuer, sensorer, modellering)?
    • Uppgifternas tidsmässiga och geografiska täckning.
    • Utrustning, programvara eller datakällor som använts.
  3. Syfte och relevans
    • Varför samlades uppgifterna in?
    • Vilka forskningsfrågor kan de besvara?
    • Eventuella begränsningar eller särskilda överväganden om användningen av data.
  4. Datans format och tillgänglighet
    • I vilket format finns uppgifterna tillgängliga (t.ex. CSV, JSON, bilddata)?
    • Är uppgifterna öppet tillgängliga eller begränsade (t.ex. tillgång på begäran)?
    • Citation av originalkällor och eventuella ytterligare resurser.
  5. Eventuella etiska eller juridiska överväganden
    • Innehåller materialet personuppgifter eller känslig information?
    • Är uppgifterna anonymiserade?
    • Krävs särskilda behörigheter?

Vi har valt ut några exempel på metadata för forskning per typ av data. Du kan ta exempel från dem eller använda det kortfattade exemplet nedan.

 

Ett bra exempel på ett abstrakt för forskningsdata:

Ett omfattande exempel på ett abstract för forskningsdata: Detta dataset innehåller mätningar av luftföroreningar som samlats in i Helsingfors 2023. Datauppsättningen består av PM2.5- och PM10-koncentrationer som uppmätts vid 15 olika stationer med timintervall från 1 januari till 31 december 2023. Uppgifterna samlades in av sensorenheter i nätverket för mätning av luftkvalitet i huvudstadsregionen och finns tillgängliga i CSV- och JSON-format. Uppgifterna kan användas för att analysera luftkvalitetstrender och för stadsplanering. Användningen av data är öppen, men en hänvisning till originalkällan är obligatorisk.

Vad gör en bra README-fil?

En bra README-fil ger nyckelinformation för vidare användning. Vi har skapat en mall för README-filen baserad på imaginära data. Du kan ladda ner och ändra den så att den passar ditt eget bruk. Ytterligare information kan omfatta den programvara som används för att öppna filerna, datainsamlingsmetoder och instrument, antalet observationer och variabler, vilken typ av mätinstrument som används och dess tillverkare.

Vad betyder proveniens?

Proveniens avser historiken för skapande och ändring av uppgifterna. Proveniensinformation bör till exempel innehålla information om modifiering av data, korrigering, uppdelning av data i delar eller kombination av data med andra dataset.

Information om dataprovanens kan innehålla information som:

Information om dataskapande och datakälla

Origin: 

  • Vem skapade eller samlade in data? (t.ex. forskare, institution, automatiserat system)
  • Insamlingsdatum och -tid: När samlades uppgifterna in/genererades de?
  • Datakällor: Om datauppsättningen härrör från andra källor, ange dem med citat.

Bearbetning och omvandling av data

  • Bearbetningssteg: Vilka ändringar, rensningar eller omvandlingar har gjorts?
  • Programvara och verktyg: Alla verktyg, skript eller program som används för databehandling (inklusive versioner).
  • Mellanliggande data: Om tillämpligt, beskriv mellanliggande dataset som skapats före den slutliga versionen.

Databidragare och roller

  • Roller och ansvarsområden: Definiera bidrag, t.ex. vem som sammanställde, analyserade eller publicerade data.

Ändringar av data

  • Versionsnummer: Identifiera versionen av datauppsättningen (t.ex. v1.0, v2.1).
  • Ändringshistorik: Dokumentera ändringar, korrigeringar eller uppdateringar av datasetet.
  • Tidsstämplar för ändringar: När gjordes uppdateringarna?
Vad betyder begränsad tillgång?

Begränsad tillgång till forskningsdata innebär att data i fråga inte är fritt tillgängliga för alla, till exempel kan de inte laddas ner direkt från ett arkiv, utan tillgång måste begäras. Det finns vanligtvis restriktioner för användning och delning av sådana data. Dessa begränsningar kan ha flera olika orsaker, t.ex:
 

  1. Dataskydd: Om uppgifterna innehåller personlig eller känslig information bör tillgången till dem begränsas för att skydda de berörda personernas integritet.
  2. Etiska skäl: Tillgången till forskningsdata kan också begränsas på grund av andra känsliga inslag i data. Det kan t.ex. gälla begränsningar som rör biosäkerhet eller förekomsten av utrotningshotade arter.
  3. Avtalsenliga eller kommersiella intressen: Under vissa omständigheter kan tillgången till uppgifter också begränsas genom avtal. Detta är ofta kopplat till uppgifternas kommersiella värde.

Begränsad tillgång innebär inte automatiskt att data inte kan göras tillgängliga under några omständigheter. Det betyder bara att tillgång till uppgifterna måste begäras. Vanligtvis har datalagren en enkel process för detta, där det ingår att förklara varför uppgifterna begärs och vad de ska användas till.