Aineisto-opas: Kyselyaineistot

Tässä oppaassa käsitellään valitulle ihmisjoukolle lähetetyllä, annetulla tai puhelimitse tai kasvokkain tehdyllä, samat kysymykset sisältävällä kyselyllä kerättyä aineistoa.

Pidä huolta datanhallinnan osaamisestasi. Datanhallinnan taidot ovat tutkijan perustaitoja. Yhdessä aineistonhallinnan suunnittelun kanssa ne varmistavat, että tutkija tunnistaa ja hallitsee aineiston käsittelyyn liittyvät riskit (esim. tietosuoja, tietoturva, aineiston käyttöoikeudet, aineiston säilytys). Helsingin yliopiston Datatuki järjestää tutkijoille maksutonta datanhallinnan koulutusta. Datatuki myös ohjeistaa ja kouluttaa sekä tarjoaa työkaluja aineistonhallinnan suunnitteluun.

Tässä oppaassa kyselyaineistolla tarkoitetaan valitulle ihmisjoukolle lähetetyllä (sähköisesti tai kirjeitse), annetulla tai puhelimitse tai kasvokkain tehdyllä, samat kysymykset sisältävällä kyselyllä kerättyä aineistoa. Aineisto voi olla kvantitatiivista tai kvalitatiivista riippuen kysymyksistä tai kyselylomakkeen kentistä. Kvantitatiivisen tutkimuksen kyselyssä kyselyjen muoto on tyypillisesti väite tai kysymys, jota seuraa mitta-asteikko, esimerkiksi Likert-asteikko tai kyllä/ei-asteikko. Kysely voidaan antaa tutkittaville kerran tai useita kertoja erilaisilla aikaväleillä, esimerkiksi kokemusotantatutkimuksessa useita kertoja päivässä lyhyen ajanjakson ajan, pitkittäistutkimuksessa joitakin kertoja useiden vuosien sisällä

Suunnittele etukäteen aineiston keruu, säilyttäminen ja käsittely tutkimuksen aikana sekä aineiston arkistointi tai hävittäminen tutkimuksen jälkeen. Aineistonhallintasuunnitelmaa laatiessa kiinnitä huomiota kysymysten tyyppiin ja laatuun (esimerkiksi kohdistuvatko kysymykset intiimeihin teemoihin tai voivatko vastaukset paljastaa vastaajan henkilötietoja), käytettyyn aineistonkeräysmenetelmään (esimerkiksi online-kyselylomakkeen tietoturvaan), ja kyselyaineiston säilyttämisen ja jakamisen käytäntöihin.

Tyypillisen tutkimusprosessin elinkaari on noin 3–5 vuotta. Jos aineistojen hallintaan ei ole varattu aikaa tai sitä ei ole suunniteltu etukäteen, aineistoista huolehtiminen jää usein julkaisemisen jalkoihin. Seurauksena on, että tutkimuksen kannalta arvokkaiksikin koettuja aineistoja jää järjestelemättömänä eri paikkoihin ja niiden jatkokäyttö voi olla vaikeaa tai mahdotonta. Aineiston jatkokäyttö on huomioitava jo aineistonhallinnan suunnitteluvaiheessa (esim. jatkokäyttölupien ja metadatan tuottamisen takia).

Henkilötietojen keräämistä säätelee yleinen tietosuoja-asetus (GDPR). Mikäli vastaajien henkilötietoja (”personal data”), kuten nimi, osoite, puhelinnumero tai henkilötunnus kerätään, tälle täytyy olla laillinen käsittelyperuste. Suositeltava käsittelyperuste tieteellisessä tutkimuksessa on yleinen etu.

Kyselyaineisto saattaa sisältää tunnisteellista henkilötietoa. Tunnisteelliset henkilötiedot on poistettava aineistosta heti, kun se on tutkimuksen puolesta mahdollista, ja vastaajia on informoitava siitä, miten heidän henkilötietojaan käsitellään. Mieti, mitkä henkilötiedot ovat tarpeellisia tutkimuksesi kannalta. Älä kerää turhaa tietoa tai tietoa varmuuden vuoksi, eli muista noudataa tiedonkeruun minimointiperiaatetta.

Avovastaukset vaarantavat kyselyn anonymiteetin. Kysely voi olla anonyymi, jos sillä ei kerätä henkilötietoja, kerättyjä tietoja ei voi yhdistää muulla tavalla kerättyyn henkilötietoon tai kysely ei sisällä avokenttiä. Avokentät eivät sinänsä tee aineistosta tunnisteellista tai arkaluonteista, mutta erityistä huomiota kannattaa kiinnittää siihen, että avokenttiin vastaajat voivat kirjoittaa niihin mitä vain – myös jotain sellaista, mistä ilmenee heidän henkilöllisyytensä tai arkaluonteista tietoa. Mikäli avoimissa vastauksissa tulee esiin tietoja, joiden perusteella vastaaja voidaan identifioida, kyselyaineistoa on kohdeltava tunnisteellisia henkilötietoja sisältävänä.

Yhdistettäessä kyselyaineistoa rekisteridataan, tulee noudattaa myös rekisteridatan käsittelyn eettisiä ja lainsäädännöllisiä periaatteita. [linkki rekisteridataohjeeseen tähän]

Kyselytutkimusten on perustuttava vastaajien informointiin ja suostumukseen. Miten informoit tutkittavia? ”Yleisen tietosuoja-asetuksen mukaisen informoinnin tarkoitus on antaa rekisteröidylle selkeässä ja ymmärrettävässä muodossa tiedot siitä, miten hänen henkilötietojaan käsitellään tutkimuksessa. Informoinnissa on huomioitava, että se on lyhyttä ja ytimekästä ja informaatio kirjoitettu siten, että tutkimuksen kohderyhmä ymmärtää, mistä tietojen käsittelyssä on kyse. Ymmärrettävään kieleen on kiinnitettävä erityistä huomiota silloin, kun tutkimuksen kohteena on lapsia, senioreita tai muutoin haavoittuvassa asemassa olevia henkilöitä. Tutkittavia on informoitava ennen päätöstä osallistua tutkimukseen (näin he antavat tietoisen suostumuksen tutkimukseen osallistumiseen). Tämän voi toteuttaa esimeriksi toimittamalla tietosuojailmoitus ennakkoon tutkittaville tai lisäämällä linkki tietosuojailmoitukseen kyselyn oheen. Tietosuojailmoitusta on hyvä pitää esillä myös tutkimushankkeen mahdollisilla verkkosivuilla.” https://flamma.helsinki.fi/fi/group/tutkimuksen-tuki/tutkimuksen-tietosuoja-asiat#menu7 Flammassa on valmiita tietosuojailmoituspohjia.

Jos tarvitset juristien apua, varaudu siihen, että heidän vastaustaan joutuu usein odottamaan usean viikon – kysy ajoissa ja käytä odotusaika jonkun muun asian edistämiseen.

Hyödynnä valmiita aineistoja. Ennen uuden aineiston keräämistä, on hyvä selvittää, onko jo olemassa aineistoa, jota voi hyödyntää. Monissa maissa kerätään koordinoidusti ja keskitetysti isoja kyselyaineistoja. Näitä keräyksiä ovat muun muassa World Value Survey ja European Social Survey [HUOM! voisiko esim. liitteeksi, taulukkoon tms listata avoimia datoja ja niiden sisältöjä ja mistä löytää vastaavia datoja lisää? / Myös kotimaisia avoimia aineistoja kannattaa hyödyntää; näistä voisi olla esimerkkejä / EUROSTAT-aineistojen hankinnan ohje HYssa tähän?] Näissä keräyksissä on hyvä dokumentaatio kaikesta tarvittavasta: keräyksen yksityiskohdista itse dataan. Kerääjien sivustoilla voi ladata dataa tai tehdä analyysejä datasta ilman, että lataa datan koneellensa. Jos käytät jonkun toisen keräämää dataa, viittaa siihen hyvien tieteellisten käytäntöjen mukaisesti. 

Keruun voi ulkoistaa myös kaupalliselle toimijalle. Keruun toteutettaessa kaupallisen toimijan avulla on syytä kiinnittää huomiota muun muassa kilpailutukseen ja tietoturvaan. On myös oltava tarkkana, miten ulkoista tahoa ohjeistetaan keruun vaiheista, datan tallentamisesta ja toimittamisesta ja mitä hintaan sisältyy. Osana hankintasopimusta tehdään myös erillinen aineistonhallintasopimus, jossa sovitaan muun muassa dataan liittyvästä keruunaikaisesta säilytyksestä sekä luovuttamisesta tutkimusryhmälle.

Kyselyaineisto kerätään antamalla tai lähettämällä kysely tutkittaville tai haastattelemalla heitä. Kysely voi olla paperikysely, puhelinhaastattelu tai verkkolomake, jonne ohjaa linkki, joka voi olla saatavilla monella tavalla, esim. uudelleenohjaamalla verkkosivulle.

Kyselytyökalun ominaisuudet vaikuttavat työnkulkuun. Ennen kuin aloitat kyselytyökalun käyttämisen, tarkista, sisältääkö se tarvitsemasi toiminnallisuudet. Voiko esimerkiksi kyselyn tai työkalun käyttöliittymän kääntää toiselle kielelle? Onko siinä monikielisyystuki? Jos kysely tulee kääntää useammalle kielelle, ota se huomioon miettiessäsi aineistonhallinnan vaatimia resursseja (aika, raha). Mikäli tutkimuksessa pitää mitata vastaamiseen menevää aikaa, tarkista, onko työkalussa tähän tarvittavat ominaisuudet.

Mihin kyselyaineisto tallentuu keruun yhteydessä? Erittäin tärkeää on tarkistaa, mihin keräämäsi aineisto työkalusta tallentuu. Henkilötietoja ei saa tallentaa pilvipalveluun ja yleinen tietosuoja-asetus rajoittaa tietojen siirtoa tai luovutuksia EU:n ulkopuolelle. Tarkoituksena on turvata rekisteröityjen yksityisyys ja asianmukainen tietojen käsittely yhtä hyvin kuin EU:n alueella, vaikka niitä käsiteltäisiin EU:n ulkopuolella (https://flamma.helsinki.fi/fi/group/tutkimuksen-tuki/tutkimuksen-tietosuoja-asiat#menu10). Myös kaupallisista kyselytyökaluista pitää tarkistaa, mihin mahdollisesti kerättävä henkilötieto tallentuu. EU:n yleisen tietosuoja-asetuksen (GDPR) mukaan henkilötietoja ei saa tallentaa EU:n ulkopuolelle.

Selvitä, pitääkö sinun jakaa oikeuksia kyselyyn, ja onnistuuko se kyseisellä työkalulla. Tarvitaanko oikeuksien saamiseen organisaation tunnukset vai miten se on toteutettu?

Ota huomioon työkalun opetteluun kuluva aika, jos käytät sitä ensimmäistä kertaa. Ota huomioon esimerkiksi seuraavat seikat:

  • Löytyykö organisaatiostasi työkalulle tukipalvelu, josta voit kysyä neuvoa tai löytyykö työkalusta esimerkiksi videoita, joiden avulla voit opetella sen käytön?
  • Tarvitseeko vastaaja kyselyn sovelluksen vai riittääkö, että lomake toimii selaimessa?
  • Onko työkalu saavutettava?
  • Pitääkö vastaajat satunnaistaa eri ryhmiin ja miten sen voi tehdä työkalulla?
  • Tallentuuko työkaluun lokitiedot, joista näkee, mitä projektissa on tehty ja kuka sen on tehnyt?
  • Tuottaako työkalu automaattisesti metadataa kyselystäsi, onko siellä data dictionary tai koodikirja?
  • Tallentaako kyselyohjelma esimerkiksi vastaajien IP-osoitteet, jolloin tutkittava voi olla tunnistettavissa?

Helsingin yliopistossa kaikki voivat käyttää E-lomake- ja Redcap-ohjelmistoja. Tiedustele tiedekunnastasi tai yksiköstä, onko siellä hankittuna jokin kyselytyökalu. E-lomake ei sovellu arkaluonteisen aineiston keräämiseen: ”E-lomakkeelle tallennetut tiedot sijaitsevat turvallisesti Helsingin yliopiston omilla palvelimilla, mutta järjestelmässä ei ole kaikkia henkilötietojen käsittelyssä GDPR:n vaatimia lokitusominaisuuksia, joten arkaluonteisia henkilötietoja sillä ei tule tallentaa lainkaan (kuten ei tähänkään asti ole ollut tarkoitus). Tätä vaatimusta tähdennetään nyt ohjeistuksessa.” https://blogs.helsinki.fi/e-lomake/2018/03/06/tarkeaa-e-lomake-ja-eun-tietosuoja-asetus-gdpr-25-5-2018-alkaen/ Redcap-ohjelmalla sen sijaan voi kerätä arkaluonteista aineistoa. 

Aineistoa ei tyypillisesti analysoida kyselytyökalussa, vaan erilaisilla tilasto-ohjelmilla. Analysointia varten aineisto siis siirretään kyselytyökalusta toiseen ympäristöön. Siirrettäessä pitää huolehtia tietoturvasta. Myös aineiston käsittelyohjelman (esim. tilasto-ohjelma) tietoturvaan pitää kiinnittää huomiota – varmista esimerkiksi, ettei ulkopuolisilla ole pääsyä aineistoon. Jos kyseessä on arkaluonteista henkilötietoa, siirrä aineisto kyselytyökalusta tietoturvalliseen tallennusympäristöön (Helsingin yliopistossa esim. Umpio) ja tee analyysit siellä olevilla ohjelmilla.

Pystytkö itse analysoimaan eri kielillä tehtyjä kyselyjä vai tarvitsetko käännöspalveluja? Käännöspalvelun kanssa on tehtävä sopimus ja sen käytöstä on myös informoitava tutkittavia.

Kyselytyökalu voi tuottaa dokumentaatiota – esimerkiksi Redcap-ohjelma tuottaa automaattisesti kyselyn data dictionaryn ja/tai koodikirjan, jossa selitetään muun muassa kyselyn muuttujat ja koodit. Datan yhteyteen tallennettu readme-tiedosto on minimivaatimus aineiston dokumentoinnille. Ilman dokumentaatiota aineisto ei ole ymmärrettävää edes sen keränneelle jonkin ajan kuluttua. Dokumentaatio pitää tehdä koko projektin ajan. Jälkikäteen dokumentoiminen voi olla käytännössä mahdotonta. 

Projektin aikaiseen dokumentaatioon kuuluu muiden muassa tiedostojen nimeäminen ja tiedostojen kansiorakenne. Suunnittele sellainen kansiorakenne, joka soveltuu omalle projektillesi. Liian syvä kansiorakenne, jossa on monia alakansioita, voi hankaloittaa oikean kansion ja tiedoston löytämistä. Liian yksinkertainen kansiorakenne voi puolestaan tarkoittaa, että kaikki tiedostot ovat samassa kansiossa ja sekin voi hankaloittaa oikean tiedoston löytymistä. Tärkeää on myös pitää raakadata erillään käsitellystä datasta ja jäädyttää raakadata, jotta sitä ei prosessoinnilla muuteta. 

Myös projektiin liittyvät erilaiset hallinnolliset dokumentit, kuten suostumuslomakkeet ja tiedotteet vastaajille ovat osa projektin dokumentaatiota. Ne kannattaa erotella omaan kansioonsa. On hyvä olla erilliset kansionsa myös hakemusdokumenteille ja artikkeliversioille. Jos projektilla on usean tutkijan käytössä oleva yhteinen kansio, kansiorakenteesta ja projektin dokumentaatiosta on syytä sopia projektiryhmän kesken. (Ks. Helsingin yliopiston Datatuen dokumentointi-opas: https://doi.org/10.5281/zenodo.1914401

FAIR-periaatteiden toteuttamisessa metadata näyttelee tärkeää osaa. Jos siis haluaa, että data on löydettävää (findable), saavutettavaa (accessible), yhteentoimivaa (interoperable) ja uudelleenkäytettävää (reusable), pitää data dokumentoida hyvin eli sen yhteydessä pitää olla metadataa, joka kuvailee sitä. Mitä paremmin noudatat FAIR-periaatteita aineistossasi, sen paremmin muut voivat käyttää sitä. Käytännössä tämä tarkoittaa, että julkaiset datan tai metadatan paikassa, jossa se saa pysyvän tunnisteen, jossa sille voi valita lisenssin ja sen pitää sisältää metadata eli aineisto on kuvailtava niin, että sen käyttäminen on mahdollista. 

Vaikka aineistoa ei voi avata, metadatan useimmiten voi. Tässäkin tapauksessa pitää kuitenkin huolehtia siitä, ettei metadata sisällä arkaluonteisia tietoja. Metadatan voi julkaista esimerkiksi Etsimessä: https://etsin.fairdata.fi/

Kyselytyökalua ei ole tarkoitettu datan säilyttämiseen. Siirrä aineisto pois käyttämästäsi työkalusta, kun olet saanut datan kerättyä. Tallennuspaikkaa datalle valittaessa, kannattaa miettiä, kenellä kaikilla pitää olla pääsy mihinkin dataan – esimerkiksi, jos tarvitsee ainoastaan pääsyn valmiisiin analyyseihin, raakadataa sisältävän kansion voi määritellä suljetummaksi. Jonkun pitää olla projektissa se, joka jakaa pääsyoikeuksia. 

Hyödynnä yliopiston palveluja aineiston säilyttämisessä. Tutkimusprojektin aikana aineistoa voi säilyttää omassa kotihakemistossa (jos käyttää aineistoa yksin) tai ryhmähakemistossa. Ohjeita erilaisiin käyttötarkoituksiin soveltuvista säilytysratkaisuista löytyy Helsingin yliopiston Datatuen wikisivun taulukosta https://wiki.helsinki.fi/x/kgV5FQ. Dokumentoi itsellesi ja ryhmällesi, missä dataa säilytetään, jotta voit esimerkiksi tarvittaessa tuhota kaiken sen datan, jonka olet luvannut tuhota. 

Helsingin yliopiston kotihakemistot ja ryhmähakemistot varmuuskopioidaan joka tunti ja ne toimivat Windows-, Mac- ja Linux-käyttöjärjestelmissä. Kotihakemistot ja ryhmähakemistot sijaitsevat yliopiston omilla palvelimilla. Kaikilla yliopistolaisilla on käytössään kotihakemisto (z-asema Windows-koneilla). Ohjeet ryhmähakemiston hankintaan: https://helpdesk.it.helsinki.fi/help/10548 Jos aineisto on arkaluonteista, sille sopiva tallennuspaikka Helsingin yliopistossa on Umpio: https://helpdesk.it.helsinki.fi/help/10813 

Ulkoinen kovalevy voi olla tarpeen esimerkiksi kenttätöissä, mutta ainoaksi tallennuspaikaksi se ei sovi, koska silloin pitää itse muun muassa muistaa huolehtia varmuuskopioinnista. Kovalevyt saattavat myös hajota tai kadota. Jos kuitenkin säilyttää jotakin kovalevyllä ja erityisesti, jos aineisto on arkaluonteista, kovalevy on salattava (kryptaus) ja tähän voi käyttää esimerkiksi Cryptomatoria. HY:n ohjeet Cryptomatorin käyttöön: https://helpdesk.it.helsinki.fi/help/10672 Aineisto on myös hyvä siirtää mahdollisimman nopeasti kovalevyltä yliopiston tarjoamiin tallennuspaikkoihin. 

Sensitiivisen datan säilyttäminen. Erityisen sensitiivistä aineistoa voi säilyttää Umpiossa, mutta Umpio sopii pelkkään tutkimuksen aikaiseen säilytykseen ja prosessointiin. Jos aineistolla on Helsingin yliopiston ulkopuolisia käyttäjiä, on hyvä käyttää CSC:n sensitiivisen datan säilytyksen palveluja https://research.csc.fi/sensitive-data. Jos aineistoa joutuu tilapäisesti säilyttämään ulkoisella kovalevyllä tai muistitikulla, se pitää suojata salasanalla ja mielellään myös salata (ks. Cryptomator-ohjelman käyttö Helpdeskin sivulla https://helpdesk.it.helsinki.fi/ohjeet/tietoturva-ja-pilvipalvelut/tietoturva/cryptomator). 
Arkaluonteista dataa ei saa lähettää sähköpostin liitetiedostona. 

"Toimenpiteitä tietojen suojaamiseksi ovat esimerkiksi: pseudonymisointi ja anonymisointi, tietojen salaaminen (kryptaus), tietojen aggregointi, lähettäminen salatulla yhteydellä, ohjeistukset tietojen käsittelijöille, lokitietojen kerääminen, pääsyoikeuksien ja käyttövaltuuksien rajaaminen, käytönvalvonta ja sopimukset.” https://flamma.helsinki.fi/fi/group/tutkimuksen-tuki/tutkimuksen-tietosuoja-asiat#menu8 Esimerkiksi Redcap-ohjelmasta saa lokitiedot. 

Jos kyselyaineistosi linkittyy rekisteriaineistoon, pitää noudattaa rekisteriaineistosta annettua ohjeistusta sen säilyttämisestä. [linkki rekisteriohjeeseen]

Jakaminen projektin aikana

Projektiryhmän kesken on syytä sopia, kuka on vastuussa mistäkin aineistonhallinnan tehtävästä. Jos rooliin tai tehtävän hoitoon riittää, että on pääsy ainoastaan analysoituun aineistoon, oikeuksia ei tarvitse antaa raakadataan ja niin edelleen. 

Jakaminen on hankalampaa, jos projektissa on oman organisaation ulkopuolisia henkilöitä. Silloin voi hyödyntää CSC:n tallennusratkaisuja, jossa on myös arkaluonteiselle datalle sopivia ratkaisuja. Vielä monimutkaisemmaksi tilanne menee, jos projektissa on muita kuin Suomessa tutkimusta tekeviä henkilöitä. Tällöin kannattaa olla yhteydessä Datatukeen, josta saa apua sopivan ratkaisun löytämiseen. 

Aineiston avaamisessa ja arkistoinnissa on noudatettava sitä, mitä tutkittaville on informoitu. Suomessa kyselytutkimusaineistolle sopiva arkistointipaikka on tyypillisesti Tietoarkisto. Tietoarkisto vastaanottaa ainoastaan anonyymia aineistoa. Tietoarkiston Aineistonhallinnan käsikirjaan voit tutustua täällä: https://www.fsd.tuni.fi/fi/palvelut/aineistonhallinta/ 

Omalle datalle sopivaa tallennuspaikkaa voi etsiä myös Re3data.org -palvelusta. Arkistoinnin valinnassa kannattaa suosia kuratoituja arkistoja, joissa voi valita (mahdollisimman avoimen) lisenssin datalle. Kuratoitu arkisto huolehtii datan pitkäaikaissäilytyksestä. Kuratoidusta arkistosta kertoo esimerkiksi Core Trust Seal. Niin ikään kannattaa valita arkisto, joka antaa datalle pysyvän tunnisteen (persistent identifier, PID). Pysyvät tunnisteet takaavat sen, että data on luotettavasti löydettävissä ja viitattavissa. Tarkista myös, kuinka pitkäksi aikaa repositorio lupaa säilyttää dataa. 

Data kannattaa avata avoimen lähdekoodin tiedostomuodossa (esim. csv-tiedosto) ja ehkä myös useammassa tiedostomuodossa, jolloin useampi tutkija voi ottaa datan käyttöönsä – ei siis vain esimerkiksi SPSS-tiedostona, joka on maksullinen ja suljettu ohjelma.

Jos olet informoinut tutkittavia, että data tuhotaan tietyn ajan kuluttua, niin näin pitää myös toimia. Jos olet informoinut, että säilytät aineiston tutkimuksen verifiointiajan ja sen jälkeen tuhoat sen, laita itsellesi esimerkiksi kalenterimuistutus, että todella muistat tuhota aineiston. 

Poista kyselyaineistosi kyselytyökalusta ja tallenna itsellesi tarvitsemasi kyselypohjat seuraavaa projektiasi varten. Tarkista, missä muodossa ja miten projektin aineiston saa ulos työkalusta. Tarkista, mikä on työkalun datan säilytyskäytäntö eli kuinka kauan voit pitää datasi siellä.

Jos haluat käyttää keräämääsi dataa myös johonkin toiseen tutkimukseen, siitä on informoitava tutkittavia.

Linkki tulossa tähän.