Aineisto-opas: Somedata

Tämä opas käsittelee sosiaalisen median alustoilta tutkimuskäyttöön kerättävää sisältöä (somedata) sekä muita digitaalisia jalanjälkiä.

Pidä huolta datanhallinnan osaamisestasi. Datanhallinnan taidot ovat tutkijan perustaitoja. Yhdessä aineistonhallinnan suunnittelun kanssa ne varmistavat, että tutkija tunnistaa ja hallitsee aineiston käsittelyyn liittyvät riskit (esim. tietosuoja, tietoturva, aineiston käyttöoikeudet, aineiston säilytys). Helsingin yliopiston Datatuki järjestää tutkijoille maksutonta . Datatuki myös .

HUOM! Monet sosiaalisen median alustat (esim. X) ovat viime vuosien aikana rajoittaneet tutkijoiden pääsyä aineistoonsa, mikä on hankaloittanut API:en käyttöön pohjaavaa aineiston keräämistä. Päivitämme käsikirjaa soveltuvilta osin vastaamaan tämänhetkistä tilannetta.

1. Aineiston määritelmä

Tämä opas käsittelee sosiaalisen median alustoilta tutkimuskäyttöön kerättävää sisältöä (somedata) sekä muita digitaalisia jalanjälkiä. Tutkijan kannalta oleellista on tuntea oman tutkimuksen kohteena olevan sosiaalisen median alustan toimintaperiaatteet. Tärkeää on myös seurata aktiivisesti sosiaalisen median alustojen muutoksia, sillä ala muuttuu poikkeuksellisen nopeasti. Sosiaalinen media on tutkimusympäristönä vielä varsin nuori. Nämä erityispiirteet aiheuttavat sen, että huomioitavia yksityiskohtia on paljon. Tämän ei kuitenkaan kannata antaa lannistaa, vaan somedataa kannattaa hyödyntää tutkimuksessa. Ks. myös (sivu on englanninkielinen).

2. Tutkimuksen suunnittelu

Somedatan keruussa ennalta yhdessä sovitut suuntaviivat helpottavat tutkimuksen tekoa. Koska somedatan keruu aloitetaan yleensä nopeasti kiinnostavan ilmiön havaitsemisen jälkeen, datanhallinnan onnistuminen riippuu työryhmän kesken ennalta sovituista suuntaviivoista. Suunnittelemalla datankeruun etukäteen tutkimusryhmäsi säästää paljon arvokasta aikaa, vaivaa ja resursseja. Alle on listattu keskeiset kysymykset, joihin kannattaa sopia valmiit perusratkaisut tutkimusryhmän kesken jo etukäteen. Muussa tapauksessa ratkaisut joudutaan tekemään kiireessä ja tämä voi johtaa ongelmiin välittömästi (kerätty data sopii huonosti tutkimuksen päämäärien saavuttamiseen) tai pidemmällä tähtäimellä (datan prosessointi vaikeutuu huonosti yhteensopivien työkalujen vuoksi). Kiinnittä siis huomioita näihin mahdollisimman varhaisessa vaiheessa. (Ks. myös Venturini ym. 2018).

Tärkeimpiä etukäteen suunniteltavia ja selvitettäviä asioita ovat:

Miltä alustoilta dataa kerätään?
Miten tutkimuksen kohteena olevan alustan omat käyttöehdot mahdollistavat tai rajaavat aineistonkeruuta?
Mitä dataa kerätään – keskitytäänkö esimerkiksi tiettyihin asiasanoihin vai käyttäjiin?
Millä työkaluilla keruu tehdään ja, työryhmässä toimittaessa, kuka keruun tekee?
Mihin data tallennetaan ja kenellä on pääsy siihen?
Miten dataa aiotaan prosessoida ja analysoida? Millä työkaluilla? Työryhmässä toimittaessa, kuka prosessoi minkäkin osan datasta?
Miten keruuprosessi dokumentoidaan?

Aiheuttaako suunnittelemasi tietojen käsittely korkean riskin tutkimukseen osallistuville? Helsingin yliopistossa arvioinnin apuna voit hyödyntää , joka löytyy tutkijan tietosuojaohjeiden yhteydestä Flammasta.

3. Lainsäädännölliset kysymykset ja sopimukset

Somedatan keräämistä määrittelee developer-sopimus. Somedatan keruu tapahtuu paljolti sosiaalisen median alustojen ehdoilla, ja tutkijan onkin tyypillisesti allekirjoitettava kyseisen alustan developer-sopimus, joka määrittää datan keruulle ja säilyttämiselle tarkat rajat. Developer-sopimuksen allekirjoittamalla tutkija saa somedataa käyttöönsä ohjelmointi- tai muun tutkimusrajapinnan (jatkossa API; application programming interface) kautta. Alustojen API:t saattavat olla maksullisia, mikä on syytä ottaa huomioon hankkeen budjettia laadittaessa.

Sosiaalisen median alustojen käyttösäännöt kieltävät skreippaamisen, eli koneavusteisen tai automatisoidun datan keruun julkisilta verkkosivuilta. Skreippaamalla tutkija voi teoriassa kiertää developer-sopimuksen määrittelemät rajoitteet, vaikka se onkin tyypillisesti kielletty useiden alustojen käyttösäännöissä (ToS; terms of service). Käyttösäännöt muuttuvat ja ovat alustakohtaisia, minkä vuoksi niiden määrittämät toiminnan rajat onkin syytä tarkistaa säännöllisesti. Tiedeyhteisö käy myös keskustelua siitä, onko eettistä noudattaa alustojen käyttösääntöjä, jos tavoite on tutkia yhteiskunnallista keskustelua tai disinformaatiota (ks. esim. Bruns 2019; Rogers 2018; Sandvig 2017).

Tutustu kulloisenkin alustan loppukäyttäjän lisenssisopimukseen (EULA). Sosiaalisen median alustojen loppukäyttäjän lisenssisopimukset (jatkossa EULA; end-user license agreement) ja käyttösäännöt määrittävät (developer-sopimusten ohella) myös tutkimustoimintaa, vaikka alustan EULAssa ei välttämättä mainita tutkimuskäytöstä mitään erityistä. Näissä tapauksissa lisenssisopimusta ja käyttösääntöjä on syytä verrata ajankohtaiseen lainsäädäntöön tai erilaisiin kohtuullisen käytön linjauksiin (vrt. Fair use Yhdysvaltojen tekijänoikeuslainsäädännössä, sitaattioikeus tai yksityiskäyttöoikeus Suomen lainsäädännössä). (Ks. esim. Laaksonen & Salonen 2018; Obar & Oeldorf-Hirsch, A. 2020).

Kaupallisilta tahoilta hankittuun somedataan liittyvät erilliset sopimukset. Somedataa voi hankkia tutkimuskäyttöön myös ostamalla valmiiksi kerättyä dataa kaupalliselta toimijalta. Tämä edellyttää sopimuksen tekemistä kaupallisen toimijan kanssa, ja tämä sopimus voi olla yhtä rajoittava kuin developer-sopimus. Tutustu sopimukseen huolellisesti ennen allekirjoittamista.

Kompromissiratkaisu yleisen tietosuoja-asetuksen informointivaatimuksen noudattamiseen on pitää meteliä omasta tutkimuksestaan tai poiketa informoinnista. Yleisen tietosuoja-asetuksen (GDPR) mukaan tutkimukseen osallistuvia – tässä tapauksessa siis tutkitussa aineistossa osallistuvia some-alustan käyttäjiä – pitää informoida heitä koskevan henkilötiedon keräämisestä ja käyttämisestä. Periaatteessa somedatan tapauksessa informointivaatimus täyttyy, kun käyttäjä itse on hyväksynyt alustan EULA:n ja käyttösäännöt. Kuten yllä todettu, vain harva käyttäjä on tutustunut EULA:an tai käyttösääntöihin, jolloin informointi jää teoriassa tutkijan vastuulle. Tutkijan puolestaan on kuitenkin käytännössä mahdotonta informoida jokaista tutkimusaineistoon päätynyttä käyttäjää siitä, että heidän julkaisunsa ovat valikoituneet osaksi tutkimusta – somedataa kerätään tyypillisesti useilla kielillä sadoilta, tuhansilta tai jopa miljoonilta käyttäjiltä. Voi olla, että kaikkia käyttäjätilejä ei ole enää olemassa tutkimuksen julkaisemisen hetkellä.

Tutkittavien informoinnista voidaan mukaan myös tietyissä rajatuissa tapauksissa poiketa – esimerkiksi kun tiedot on saatu muualta kuin tutkittavilta itseltään ja informointi osoittautuu mahdottomaksi tai vaatisi kohtuutonta vaivaa. Mikäli tutkittavien informointi osoittautuu mahdottomaksi, tutkija tai tutkimusryhmä voi tiedottaa datankeruusta somealustalle, jossa tutkimusta tehdään, tutkimuksen omilla kotisivuilla tai muulla tavoin muulla tavalla pitämällä julkista ”meteliä” tutkimuksestaan. Tutkija tai tutkimusryhmä voi esimerkiksi julkaista tutkittavaan aiheeseen liittyvällä aihetunnisteella varustettuja twiittejä, joissa kerrotaan käynnissä olevasta tutkimuksesta.

Huolimatta siitä, että informoinnista on poikettu tai tyydytty vain ylläkuvattuun yleiseen tutkimuksesta tiedottamiseen, tietosuojailmoitus pitää tehdä ja toimittaa arkistoitavaksi kotiorganisaation tietosuojavastaavalle (Helsingin yliopistossa sähköpostilla osoitteeseen ). Tietosuojailmoitus toimii myös osoitusvelvollisuutta toteuttavana dokumenttina. .

4. Tutkimuseettiset kysymykset ja tutkimusluvat

Somedata on pääasiassa matalariskistä henkilötietoa, mutta voi sisältää myös sensitiivistä tietoa. Somedata on henkilötietoa, joka voi olla myös sensitiivistä, sillä käyttäjät tuovat esiin esimerkiksi poliittisia näkemyksiään tai uskonnollisia vakaumuksiaan. Somedata on kuitenkin usein luonteeltaan julkista (kuka vain internetissä voi nähdä sen) tai puolijulkista (kaikki palvelun käyttäjät voivat nähdä sen), mikä madaltaa datan riskiastetta. Teoriassa jokainen sosiaalisen median alustan käyttäjä on hyväksynyt alustalle liittyessään EULA:n ja käyttösäännöt, jotka määrittelevät julkaisut oletusarvoisesti julkisiksi tai puolijulkisiksi. Harva keskivertokäyttäjä on kuitenkaan tutustunut EULA:n tai käyttösääntöjen yksityiskohtiin (ks. esim. Obar & Oeldorf-Hirsch 2020). Näin ollen ei voida olettaa, että he tietäisivät julkaisujensa olevan yhtä julkisia kuin esimerkiksi sanomalehtien mielipidekirjoitukset. Tämä on tutkimuseettisesti ongelmallista ja aiheuttaa haasteen tutkittavien informointivaatimuksen noudattamiselle. (Ks esim. ).

Somedatan tai sieltä otettujen suorien lainausten anonymisointi on usein mahdollista murtaa fraasihaulla. Tutkimusta julkaistaessa on otettava huomioon, että anonymisointi on usein mahdollista murtaa tekemällä hakukoneella fraasihaku. Jos kyseessä on julkisesti internetissä oleva someaineisto (esim. twiitti, Reddit-julkaisu), fraasihaku murtaa anonymisoinnin suurella todennäköisyydellä ja pienellä vaivalla. Yksinkertaisella fraasihaulla murrettu anonymisointi tekee aineistosta tunnisteellista, jolloin se ei täytä GDPR:n vaatimuksia henkilötiedon anonyymistä käsittelystä. Täydellinen anonymisointi vaatisi myös linkitettyjen tai mainittujen tilien poistoa. Tutkittaessa tarkkarajaisia tai harvinaisia someilmiöitä henkilöiden tunnistettavuus vaarantuu.

Tutkittavien anonymiteettiä voi vahvistaa esimerkiksi kääntämällä (jos aineistojen kieli on jokin toinen kuin tutkimuksen kieli) someaineistot toiselle kielelle ja olla tarjoamatta alkukielistä versiota. Toinen mahdollisuus on käyttää parafraaseja, eli ilmaista sisältö sen alkuperäiselle ilmaisulle uskollisesti muttei sanatarkasti (ks. esim. Markham 2012). Näillä ratkaisuilla päästään lähemmäs tutkimuseettisempää sovellusta GDPR:n vaatimuksista.

5. Aineiston keruu

Somedataan perustuvan tutkimuksen läpinäkyvyys paranee dokumentoimalla kaikki tehdyt toimet. Somealustojen API:t, datankeruuseen käytettävät ohjelmistot ja muut apuvälineet saattavat muuttua, päivittyä ja vanheta, mikä tekee datankeruun toistamisen mahdottomaksi. Tutkimuksen läpinäkyvyys ja toistettavuus kärsivät, jos datankeruuta ei voida toistaa. Dokumentoimalla tehdyt toimet – esimerkiksi käytetyn API:n version, käytetyt ohjelmistot ja skriptit – läpinäkyvyys ja toistettavuus paranevat merkittävästi. Toistettavuuden ongelmia lisää myös se, että sosiaalisen median alustoilta katoaa sisältöä käyttäjien lähtiessä alustoilta tai poistaessa niiltä sisältöjä. Samoin käyttäjät saattavat jälkikäteen muuttaa vanhoja julkaisujaan siten, että niiden asiasisältö muuttuu toisenlaiseksi. Dokumentoinnissa onkin syytä mainita, milloin keruu on tehty.

Keruuprosessin läpinäkyvyys vaarantuu hankittaessa somedata kaupalliselta taholta. Kaupalliselta taholta dataa ostettaessa, tutkija ei välttämättä tiedä, millä periaatteilla kaupallinen toimija on hankkinut datan alustalleen. Etenkin suurien datamäärien kohdalla tutkijan on vaikea tietää tarkasti, kuinka data on kerätty. Keruuprosessin läpinäkyvyyden vaarantuminen lisää tutkijan tietämättömyyttä siitä, kuinka kaupallisen toimijan alusta valikoi datan tutkijalle. Valikoimisen tekevät algoritmit voivat olla määritelty liikesalaisuuksiksi. Tämä synnyttää tutkimuksen kannalta haitallisia sokeita pisteitä, joita tutkija itsekään ei välttämättä havaitse tai tiedosta. (Joseph ym. 2014; Morstatter ym. 2013.)

Tehokas tapa kerätä somedataa on hyödyntää keräimiä. Internetissä on olemassa useita valmiita ja ilmaisia keräimiä, joilla somedatan saa kerättyä tutkimuskäyttöön helpoiten. Yleensä keräimet perustuvat Python- tai R-paketteihin ja avoimeen lähdekoodiin – esimerkiksi X:n aineistojen keruun tapauksessa paljon käytetty . Keräimien käyttöönotto vaatii tutkijalta developer-sopimuksen sekä vähintään perustason ohjelmointiosaamista tai dokumentaatioon tutustumista. Erityisen suositeltavaa on tutustua keräimen dokumentaatioon ja tarvittaessa lähdekoodiin (esim. ja ).

Somedatan keruun läpinäkyvyyttä voi lisätä ohjelmoimalla keräimet itse. Omien keräinten ohjelmointi vaatii tutkijalta merkittävää ohjelmointiosaamista sekä ajallista panostusta. Yleisimmin käytetyt keräimet ovat olleet niin laajassa käytössä, että ne ovat käytön myötä käyneet läpi kattavan testauksen, joka jää puuttumaan tutkijan itse ohjelmoimista keräimistä. Vastapainona on, että tutkija tietää täsmällisesti, kuinka somedatakokonaisuus muodostuu. Tutkija voi halutessaan myös jakaa käyttämänsä keräimet ja skriptit eteenpäin (esim. ), mikä entisestään parantaa keruun läpinäkyvyyttä.

6. Aineiston käsittely ja analysointi

Raakasomedatan siistimiseen kuluu helposti paljon aikaa. Raakasomedata sisältää paljon tutkimukselle ylimääräistä tietoa, jota tutkijan on kyettävä karsimaan, jotta data saadaan hyödyllisempään muotoon. Lisäksi data ei välttämättä tule sellaisessa tiedostomuodossa, jota tavalliset toimisto-ohjelmistot pystyisivät käsittelemään, ja siksi se täytyykin usein kääntää toiseen tiedostomuotoon. Tämä voi tarkoittaa esim. JSON-tiedostojen sisältöjen karsimista, skripteillä käsittelyä ja CSV-tiedostomuotoon tallentamista. Somedataa tällä tavoin siivotessa on tärkeää suunnitella, mitä analyysiä sillä pyritään tekemään, koska analyysin muoto ja lopputulos määräytyvät käsitellyn datan perusteella. Ilman suunnittelua siivoamisesta voi joutua tekemään uudelleen osan tai kaiken, mikä kuluttaa tutkimuksen resursseja tarpeettomasti. Raakadatan siistimiseen kuluvan ajan määrää voi olla vaikea ennustaa, mutta siihen kuluu helposti viikkoja tai kuukausia – etenkin heikkotasoisella tai olemattomalla suunnittelulla.

Raakadatan muuttaminen tutkimukselle hyödylliseen muotoon saattaa heikentää tutkimuksen läpinäkyvyyttä ja toistettavuutta, jos työprosesseja ei ole dokumentoitu. Millä tavalla raakadataa on käsitelty ja muokattu tutkimukselle sopivampaan muotoon? Millaisia skriptejä on käytetty? Kun jokaisen työvaiheen jälkeen kirjoitetaan ylös vastauksia tämänkaltaisiin kysymyksiin, tutkimuksen läpinäkyvyys paranee merkittävästi. Dokumentoimalla työprosessit pystytään myös parantamaan työryhmän sisäistä viestintää ja toimintaa, sillä toisen tutkijan skriptien ymmärtäminen ilman dokumentaatiota voi olla erittäin haastavaa, aikaa vievää ja turhauttavaa. Tutkimusprosessin dokumentaation voi ajatella tutkimuksen metadatana, joka on yleensä julkaistavissa, vaikka dataa itseään ei voitaisikaan julkaista.

7. Dokumentaatio

Somedatan kuvailun sijaan mielekkäämpää on puhua työprosessien dokumentaatiosta. Somedata syntyy tutkijasta riippumatta ja tutkimuksen ulkopuolisiin tarkoituksiin, minkä takia tutkija ei voi dokumentoida kaikkia sen syntyyn liittyviä metatietoja. Esim. X:n API:n kautta kerätyssä JSON-tiedostossa on paljon metadataa, josta osa (esim. käyttäjän profiilisivun taustaväri) ovat vain harvoin tutkimukselle merkityksellisiä. Tutkijan ei voida olettaa olevan vastuussa siitä, miten somealusta muodostaa metadataa tai määrittää tutkijalle välitettävän datan parametrit, mutta tutkijan on hyvä olla tietoinen alustan ajantasaisista vaikutuksista datankeruuseen. Muutoinkin tutkijoille on hyödyksi tuntea kriittistä somealustatutkimusta. Somedataan perustuvan tutkimuksen dokumentaatiossa merkittävimmät tutkijan vastuulle jäävät asiat liittyvät datan kuvailun sijasta työprosessin kuvailuun.

Raakadatan muuttaminen tutkimukselle hyödylliseen muotoon saattaa heikentää tutkimuksen läpinäkyvyyttä ja toistettavuutta, jos työprosesseja ei ole dokumentoitu. Millä tavalla raakadataa on käsitelty ja muokattu tutkimukselle sopivampaan muotoon? Millaisia skriptejä on käytetty? Kun jokaisen työvaiheen jälkeen kirjoitetaan ylös vastauksia tämänkaltaisiin kysymyksiin, tutkimuksen läpinäkyvyys paranee merkittävästi. Dokumentoimalla työprosessit pystytään myös parantamaan työryhmän sisäistä viestintää ja toimintaa, sillä toisen tutkijan skriptien ymmärtäminen ilman dokumentaatiota voi olla erittäin haastavaa, aikaa vievää ja turhauttavaa. Tutkimusprosessin dokumentaation voi ajatella tutkimuksen metadatana, joka on yleensä julkaistavissa, vaikka dataa itseään ei voitaisikaan julkaista.

8. Aineiston säilytys projektin aikana

Kaikille kaikissa tilanteissa sopivaa tallennusratkaisua ei ole olemassa. Tallennusratkaisua valittaessa on otettava huomioon mm. seuraavia asioita. Kuinka moni tarvitsee pääsyn dataan? kuinka paljon dataa on? Kuinka sensitiivistä aineisto on? Tehdäänkö tutkimusta yhteistyössä muiden yliopistojen kanssa? Tämän takia yhtä kaikille aina sopivaa tallennusratkaisua ei ole olemassa. Huolellinen eri tallennusratkaisuihin tutustuminen on erittäin suositeltavaa. Helsingin yliopiston tarjoamat tallennusratkaisut on listattu . Ei-suositeltuja vaihtoehtoja ovat kaupalliset pilvipalvelut ja ulkoiset kovalevyt/muistitikut.

Tässä ehdotetaan muutamia somedatalle sopivia tallenusratkaisuja. Ehdotukset perustuvat ajatukselle somedatasta matalariskisenä sensitiivisenä henkilötietona.

Jos tutkija tekee tutkimustaan yksin Helsingin yliopistossa ja hänelle kertyy dataa alle 100 GB, kotihakemisto eli on hyvä vaihtoehto, sillä se on riittävän tietoturvallinen ja tarjoaa tarkan pääsynhallinnan sekä automaattisen varmuuskopioinnin.
Jos tutkija tekee tutkimustaan yksin tai vain Helsingin yliopiston tutkijoita sisältävässä ryhmässä ja dataa kertyy alle 10 TB, ryhmähakemisto eli on hyvä vaihtoehto, sillä se on riittävän tietoturvallinen ja tarjoaa tarkan pääsynhallinnan ja automaattisen varmuuskopioinnin.
Jos tutkimusryhmään sisältyy Helsingin yliopiston ulkopuolisia tahoja, toimivia ratkaisuja ovat esimerkiksi , sekä dokumentaatiolle sopii myös . Moniin näistä ei saa tallentaa henkilötietoa tai sitä sisältävä data suositellaan tallennettavan kryptattuna – tutustu siis palveluiden ehtoihin ja kuvauksiin ennen käyttöönottoa. Tietoturvaa ja -suojaa saa lisää yhdistelemällä mainittuja palveluja esim. tallentamalla pseudonymisointiavaimet yhteen palveluun ja dokumentaation keruusta ja prosessoinnista toiseen palveluun.

9. Aineiston avaaminen, arkistointi ja hävittäminen

Developer-sopimukset estävät tutkijoita avaamasta ja arkistoimasta tutkimukseen kerättyä somedataa sellaisenaan tai ollenkaan. Sosiaalisen median alustat rajoittavat datan avaamista ja arkistoimista pitkäaikaistallennusta varten. Esimerkiksi X on sallinut twiittidatan avaamisen ”dehydroidussa” muodossa eli pelkkinä twiitit yksilöivinä id-tunnisteina, jossa ne on syötettävä X:n API:n saadakseen varsinaisen eli ”rehydroidun” twiitin nähtäväkseen. ”Rehydrointi” on mahdollista tehdä myös ilman developer-sopimusta, mutta tällöin prosessi tapahtuu twiitti kerrallaan. X:n API muuttui kevään 2023 aikana maksulliseksi, mikä tekee suurten aineistojen ”rehydroinnista” aiempaa ongelmallisempaa: kymmeneen tuhanteen twiittiin rajoitettu keruu maksaa 100 $ per kuukausi. Laajempi käyttö maksaa enemmän. Somedatan sijaan tutkija voi tutkimuksen jälkeen avata käyttämänsä skriptit esim. , mutta tätä varten ohjelmointia olisi hyvä siistiä ja kommentoida. Ilman siistimistä ja kommentointia ohjelmien jatkokäyttö voi olla hankalaa tai mahdotonta.

Tutkimuksen jälkeen somedatan kuratointi jää tutkijan vastuulle. Tutkijan vastuulle jää varmistaa, että hänellä käytössään oleva somedata ei sisällä sittemmin poistettuja tai muilla tavoilla piilotettuja julkaisuja. Julkaisun poistaminen on tulkittavissa käyttäjän ilmaisemaksi (GDPR:n mukaiseksi) haluksi tulla unohdetuksi ja tutkijan on näin ollen poistettava kyseinen aineisto datastaan. . Käytännössä näitä pohdintoja täytyy tehdä tutkimusryhmässä tasapainotellen tutkimuksen yhteiskunnallisen ja tieteellisen merkittävyyden, yritysten asettamien reunaehtojen ja tutkimusetiikan välillä. Kuratointivaatimus tuo myös muita haasteita tutkijoille, sillä tutkimustulosten toisintaminen täsmällisesti muuttuu vähintäänkin erittäin vaikeaksi tai jopa mahdottomaksi, jos ja kun samaa dataa ei voi tai saa käyttää. Lisävaikeutta kuratoinnin käytännön toteuttamiseen tuo myös X:n API:n muuttuminen maksulliseksi kevään 2023 aikana, sillä kuratointi on tehtävä ”rehydroimalla” data, jolloin se on ajettava API:n kautta. Kuratointivaatimus myös näivettää tutkijalla käytössä olevan datan määrää vähitellen ja toisinaan dramaattisesti lyhyessä ajassa, jos somealusta syystä tai toisesta menettää käyttäjiä. Kuratointivaatimuksen tapauksessa tutkijan tutkimuskohteena on aina sosiaalisen median alusta ja sen sisällöt sellaisena kuin se juuri nyt on tallella, ei niinkään mitä (sittemmin syystä tai toisesta poistettua) keskustelua on autenttisesti käyty. Tämä tekee sosiaalisen median historiallisen tutkimuksen merkittävästi rajatummaksi.

Somedatan säilyttäminen tutkimuksen jälkeen tutkijan itsensä käytössä. Tutkijan omaan käyttöön tarkoitettu, tutkimuksen jälkeinen raakadatan säilytys suositellaan tehtäväksi CSC:n palveluissa sekä Helsingin yliopiston omissa palveluissa eli kotihakemistossa lla tai ryhmähakemistossa lla. Mainittujen ratkaisujen ongelmana on niiden riippuvaisuus yliopiston käyttäjätunnuksista: jos työsuhde yliopistoon katkeaa, myös pääsy mainittuihin palveluihin katkeaa. Ehto sisältyy myös useisiin muihin palveluihin, kuten esimerkiksi . Tällaisissa tilanteissa datan siirto muihin palveluihin tulisi ennakoida ja suunnitella hyvissä ajoin. Tutkimuksen jälkeiseen datan säilytykseen ei suositella käytettävän kaupallisia pilvipalveluita tai ulkoisia kovalevyjä. Jos muita vaihtoehtoja ei kuitenkaan ole, tiedostojen kryptaamisella ja tallentamisella useaan paikkaan saa datalle lisäturvaa.

Aineiston tuhoaminen on myös vaihtoehto. Kaikkea tutkimusaineistoa ei tarvitse säilyttää, vaan se voidaan tuhota tutkimuksen jälkeen. Jos aineisto aiotaan tuhota, pelkkä käyttöjärjestelmän poista-toiminto (yleensä Delete) ei riitä, vaan tiedostot on mahdollista palauttaa myöhemmin. .

Kirjallisuutta

Bruns, A. (2019). After the ‘APIcalypse’: social media platforms and their fight against critical scholarly research. Information Communication and Society, 22(11), 1544–1566.

Joseph, K., Landwehr, P. M., & Carley, K. M. (2014). Two 1%s Don’t make a whole: Comparing simultaneous samples from Twitter’s Streaming API. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 8393 LNCS, 75–83.

Laaksonen, Salla-Maaria & Salonen, Margareta 2018. Kuka saa päättää, mitä dataa tutkijalla on käytössään? Ei ainakaan amerikkalainen suuryritys. Rajapinta.

Markham, A. (2012). Fabrication as Ethical Practice. Information, Communication & Society, 15(3), 334–353.

Morstatter, F., Ave, S. M., Ave, S. M., & Carley, K. M. (2013). Is the Sample Good Enough ? Comparing Data from Twitter ’ s Streaming API with Twitter ’ s Firehose.

Obar, J. A., & Oeldorf-Hirsch, A. (2020). The biggest lie on the Internet: ignoring the privacy policies and terms of service policies of social networking services. Information, Communication & Society, 23(1), 128–147.

Rogers, R. (2018). Social media research after the fake news debacle. Partecipazione e Conflitto: The Open Journal of Sociopolitical Studies, 11(2), 557–570. doi:10.1285/i20356609v11i2p557

Sandvig, C. (2017). Heading to the courthouse for Sandvig v. Sessions.

Venturini, T., Bounegru, L., Gray, J., & Rogers, R. (2018). A reality check(list) for digital methods. New Media and Society, 20(11), 4195–4217.

Verkkolähteitä

Lataa oppaan PDF-versio

PDF-versio lisätään pian.