Aineisto-opas: Tutkimuskäyttöön jalostettavat tekstiaineistot

Tämä opas käsittelee tutkimuskäyttöön jalostettaviin tekstiaineistoihin liittyviä tutkimusaineistonhallinnan kysymyksiä.

Pidä huolta datanhallinnan osaamisestasi. Datanhallinnan taidot ovat tutkijan perustaitoja. Yhdessä aineistonhallinnan suunnittelun kanssa ne varmistavat, että tutkija tunnistaa ja hallitsee aineiston käsittelyyn liittyvät riskit (esim. tietosuoja, tietoturva, aineiston käyttöoikeudet, aineiston säilytys). Helsingin yliopiston Datatuki järjestää tutkijoille maksutonta datanhallinnan koulutusta. Datatuki myös ohjeistaa ja kouluttaa sekä tarjoaa työkaluja aineistonhallinnan suunnitteluun.

Tämä opas käsittelee tutkimuskäyttöön jalostettaviin tekstiaineistoihin – erityisesti rakenteisessa muodossa käsiteltäviin tekstisisältöihin – liittyviä tutkimusaineistonhallinnan kysymyksiä. Tekstisisällöt voivat olla peräisin tutkimusryhmän ulkopuolisesta lähteestä – esimerkiksi eri muistiorganisaatioilta, tai tutkimusryhmien itse keräämiä – esimerkiksi skannatut kirjat ja muut dokumentit. Tässä käsitellään erityisesti ryhmän ulkopuolelta tulevan tekstiaineiston parissa työskentelyä, mutta ehdotetut ratkaisut ovat sovellettavissa itsekerätyn tai projektissa tuotetun aineiston kanssa työskentelyyn.

Erityishuomiota kiinnitetään aineiston RDF-muotoon (Resource Description Framework, eli standardoitu malli tiedon vaihtoon erityisesti verkkosovellusten välillä) muuttamisen sekä semanttisen webin käyttöliittymän (ks esim. Biografiasampo) luomiseen.

Tässä oppaassa käytetään termejä raakadata (luonnollista tai rakenteista tekstiaineistoa), lähdeorganisaatiot (tahot, joilta käsiteltävä raakadata saadaan) jalostettu data (rakenteiseen muotoon muutettu tekstiaineisto), prosessointiputki (ohjelmisto, jolla raakadata muutetaan jalostettuun muotoon), portaali (loppukäyttäjän käyttöliittymä).

Julkaistava data tutkimustuotoksena samassa asemassa kuin artikkeli tai kirja. Projektissa syntyvän jalostetun datan julkaiseminen korostuu laajojen rakenteisten tekstiaineistojen tutkimuksessa enemmän kuin tyypillisissä tekstiaineistoihin perustuvan tutkimusotteen projekteissa. Tutkimusartikkeleiden ja muiden perinteisten tutkimusjulkaisujen ohella myös rakenteiseen muotoon jalostettu data pyritään poikkeuksetta tekemään käytettäväksi erillisessä käyttöliittymässä tai julkaisemaan sellaisenaan. Tutkimusprojektissa syntyvän rakenteisen datan julkaisemisen mahdollistamiseksi datanhallinnan ennakointiin on syytä kiinnittää huomioita.

Datan ja tutkimusprosessin dokumentointi tärkeää. Jotta datan saattaminen julkisesti muiden käytettäväksi on mahdollista, data ja tutkimusprosessi pitää dokumentoida tarkasti. Mahdollisimman varhaisessa vaiheessa on syytä kirjata muistiin, kuinka data kerätään ja jalostetaan, mitä mahdollisia puutteita käsittelyssä tulee vastaan jne.

Monitieteisyys ja useat organisaatiot. Tutkimusta tehdään yleensä usean organisaation kesken ja monitieteisesti – esim. dataa jalostavat tietojenkäsittelytieteen tutkijat, syntyvästä datasta tutkimusta tekevät historioitsijat. Mitä huolellisemmin ja varhaisemmin tutkimusryhmä suunnittelee projektin ja sen datanhallinnan, sitä vähemmän resursseja tarvitsee käyttää projektin aikana prosessointien, ohjelmointien tai muiden työnkulkujen toistamiseen. Alle on listattu tärkeimpiä kysymyksiä, jotka tulisi ratkoa ennen tutkimuksen aloittamista.

Tärkeimpiä etukäteen suunniteltavia asioita ovat:

  • Mistä data tulee? Kerätäänkö se itse vai saadaanko se lähdeorganisaatiolta?
  • Jos data tulee lähdeorganisaatiolta, millaisia sopimuksia kirjoitetaan ja millaisia datankäyttöön liittyviä rajoitteita sopimuksiin sisältyy?
  • Mitä tutkimusorganisaatioita on mukana hankkeessa ja miten tehtävänjako eri organisaatioiden ja tutkijoiden välillä järjestetään?
  • Kuinka versionhallinta suunnitellaan yksiselitteiseksi ja kaikille osapuolille ymmärrettäväksi?
  • Miten suunnitella prosessointiputki siten, että prosessi on automatisoitavissa ja toistettavissa?
  • Millaiseen muotoon data prosessoidaan ja kuvaillaan?
  • Mitkä jalostetut datat julkaistaan? Missä? Millaisilla ehdoilla?

Rutiinia sopimusten tekemiseen. Laajoja tekstiaineistoja käsittelevä tutkimus perustuu usein toiselta organisaatiolta saatavaan tekstikorpukseen, minkä takia datanhallintaan liittyvät sopimukset ovat tärkeitä. Sekä tutkimusta tekevän ryhmän että tekstikorpuksen tarjoavan organisaation etujen mukaista on, että datan käyttämiselle ja julkaisemiselle on olemassa selkeä, kirjallinen ja yhdessä sovittu sopimus. Datan käsittelyä koskevien sopimusten tekemisestä kannattaa muodostaa rutiini. Sopimuksen ei tarvitse olla monimutkainen, mutta tärkeää sille on selkeys ja yksiselitteisyys: mitä dataa annetaan, kenelle, millä ehdoilla, mitä dataa voidaan julkaista, millä lisenssillä tai missä repositoriossa data voidaan julkaista, ja niin edelleen.

Sopimuksen laatimisen apuna voi käyttää esimerkiksi Helsingin yliopiston intranetistä löytyviä ohjeistusta https://flamma.helsinki.fi/s/M42y8 sekä esitietolomaketta https://flamma.helsinki.fi/documents/37201/0/Questionnaire+for+MTA%2C+incoming+material+%281%29.pdf/96913b6b-8ae3-91f1-bf42-a2b2c140bede?t=1661341567736; sopimukset tulisi käydä läpi myös oman organisaation juristien kanssa ennen allekirjoittamista. Pahimmassa tapauksessa epäselvä sopiminen voi johtaa väärän aineiston julkaisemiseen, ylimääräiseen työntekoon ja sovittujen sanamuotojen merkitysten arvuutteluun, mitkä kuluttavat tarpeettomasti resursseja puolin ja toisin.

Sopimusten määrittämät rajat. Tutkimustoiminnan rajoja määrittelevät sekä sopimukset että lainsäädäntö. Laajoja tekstiaineistoja tutkittaessa lähdeorganisaatioiden kanssa tehdyillä sopimuksilla on merkittävä painoarvo, koska lähdeorganisaatiot antavat teksti- tai metadatakorpuksen tutkimusryhmän käytettäväksi eikä tutkimusta voi tehdä ilman lähdeorganisaation lupaa. Onkin erityisen tärkeää, että tutkimusryhmä on tietoinen lähdeorganisaation kanssa solmitun sopimuksen asettamista rajoista. Tyypillisiä vaatimuksia ovat elossa olevien ihmisten suodattaminen (filtteröinti) pois datasta sekä jonkin osan tai kokonaisuuden poistaminen datasta ennen julkaisua.

Lainsäädännön määrittämät rajat. Lainsäädännön näkökulmasta erityisesti EU:n yleinen tietosuoja-asetus (GDPR) määrittelee, kuinka elossa olevaa henkilöä koskevia ja häneen yhdistettävissä olevia tietoja voidaan käsitellä ja julkaista. Henkilöllä, jonka tietoja käsitellään (GDPR:n mukaan rekisteröity henkilö), on oikeus tulla informoiduksi muun muassa siitä, mitä tietoja hänestä kerätään, miten niitä käytetään ja kenen toimesta. Tutkimusryhmälle on ensiarvoisen tärkeää olla tietoinen GDPR:n ja muun lainsäädännön vaatimuksista ennen datan tai portaalin julkaisua, sillä pahimmassa tapauksessa julkaisu on lainvastainen.

Kuinka suhtautua yleisen tietosuoja-asetuksen (GDPR) vaatimuksiin? Mikäli data koostuu kuolleiden ihmisten henkilötiedoista (esim. Sotasammon menehtyneet https://www.sotasampo.fi/fi/casualties/) tai aineisto on luonteeltaan läpinäkyvästi julkista (esim. Parlamenttisampo https://parlamenttisampo.fi) EU:n yleinen tietosuoja-asetus (GDPR) ei vaikuta jalostetun datan tekemiseen tai julkaisemiseen. Sen sijaan harmaalla alueella olevia tapauksia GDPR:n näkökulmasta ovat datakokonaisuudet, joissa kuolleiden lisäksi on elossa olevien ihmisten tai heidän läheistensä henkilötietoja (esim. Biografiasampo http://biografiasampo.fi/).

Biografiasammon esimerkkitapauksessa tiedot eivät ole sisällöltään erityisen arkaluonteisia tai korkeariskisiä, mutta kuitenkin henkilötietoja. Tärkeä kysymys onkin, tuoko datan jalostaminen uuden tiedollisen tason esillä olevaan henkilötietoon: jos katsotaan, että rakenteiseen muotoon jalostamalla datasta paljastuu muutoin pimentoon jääviä arkaluonteisia tietoja (ts. tietosuoja-asetuksen määrittelemiin erityisiin henkilötietoryhmiin kuuluvia tietoja), on datan käsittelyyn kiinnitettävä erityistä huomiota. Erityisesti tällaisissa tapauksissa portaalille on luotava oma tietosuojailmoitus – muissakaan tapauksissa tietosuojailmoituksesta ei ole haittaa.

Datajulkaisujen kohdalla on joko otettava yhteyttä kaikkiin datan kohteina oleviin henkilöihin tai varmistettava, miten lähdeorganisaatio on informoinut henkilöitä henkilötietojen käytöstä. Lähdeorganisaatioiden tietosuojaratkaisut määrittävät tutkimusryhmien toiminnan rajoja. Lisäksi tulisi ottaa varhaisessa vaiheessa yhteys oman organisaation tietosuojavastaavaan ja juristeihin, jotka varmistavat suunnitellun tutkimuksen, datajulkaisun ja portaalin oikeudellisuuden.

Kerättävään aineistoon mieluummin liikaa tietokenttiä kuin liian vähän. Koska tekstiaineistoja tyypillisesti kerätään useista eri lähdeorganisaatioista, data on luonteeltaan heterogeenistä. Näin ollen dataa joutuu yhdenmukaistamaan tutkimukselle hyödylliseen eli mahdollisimman rakenteiseen muotoon. Jotta yhdenmukaistaminen olisi mahdollisimman tehokasta, lähdeorganisaatioilta tulisi pyytää luovuttamassaan aineistossaan mieluummin liikaa kuin liian vähän tietokenttiä. Tämä säästää potentiaalisesti merkittävästi aikaa tutkimuksen tekemisessä, kun samoja työvaiheita ei tarvitse toistaa työn edetessä.

Tekstin tulisi olla mahdollisimman rakenteista. Kun laajoja tekstiaineistoja jalostetaan, aineistojen tulisi olla mahdollisimman rakenteisia. Esimerkiksi taulukkomuotoinen (esim. .csv) tiedosto on rakenteisempi ja näin ollen helpommin käytettävä kuin teksti- (esim. .docx) tiedosto. Täysin rakenteeton eli luonnollinen teksti on erityisen haasteellista jalostettavaa, mikä tulee ottaa huomioon tutkimuksen suunnittelussa ja aikatauluttamisessa. Tutkimuksen sujuvuuden mahdollistamiseksi lähdeorganisaatioilta on hyvä pyytää mahdollisimman rakenteista tekstiaineistoa, esimerkiksi .csv-muodossa.

Rutiinin puutteesta syntyy aikaa vievää selvittelyä. Kuten sopimustenkin kanssa, myös datan hankkimiseen lähdeorganisaatioilta liittyy paljon muun muassa rutiinien puutteesta johtuvaa lähdeorganisaatioiden sisäisiä selvittelyjä. Nämä selvittelyt saattavat hidastaa tutkimuksen käynnistämistä. Yhtenä mahdollisena keinona prosessin sujuvoittamiseen on laatia tutkimusryhmässä yhteydenottopohja, jossa kerrotaan perusasiat pyydettävästä datasta, sen jalostamisesta, suunnitteilla olevista julkaisuista (portaali, datajulkaisu ja tutkimusjulkaisut) ja niin edelleen. Yhteydenottopohjan suunnittelun keskiössä on hyvä pitää lähdeorganisaatioiden selvittelyprosessien sujuvoittaminen.

Lähdeorganisaatioiden vaatimusten toteuttamiselle vaadittava aika. Lähdeorganisaatioilla saattaa olla vaatimuksia siitä, mitä osaa tekstiaineistosta saa käyttää tai julkaista portaalissa tai datajulkaisuna. Tyyppiesimerkki on elossa olevien henkilöiden poistaminen aineistosta yleisen tietosuoja-asetuksen vaatimuksesta. Näiden vaatimusten toteuttaminen voi olla aikaa vievää, josta johtuvat ongelmat voidaan välttää etukäteisellä suunnittelulla ja varaamalla tähän työvaiheeseen riittävästi aikaa.

Huolellisesta suunnittelusta ja selkeistä sopimuksista huolimatta jalostettavaksi päätyvä raakadata ei ole virheetöntä. Tyypillisiä ongelmia ovat esimerkiksi tekstintunnistukseen (optical character recognition, OCR) liittyvät virheet ja epätarkkuudet. Periaatteessa tutkija tai tutkimusryhmä voi itse korjailla näitä virheitä, mutta pitkällä tähtäimellä parempi ratkaisu on ottaa yhteyttä lähdeorganisaatioon ja pyytää heitä muuttamaan raakadataansa. Näin tutkijan tai tutkimusryhmän ei tarvitse tehdä samoja korjauksia uudelleen, kun raakadata ajetaan uudestaan prosessointiputken läpi. Tätäkin silmällä pitäen on suositeltavaa jättää aikatauluihin väljyyttä, koska lähdeorganisaatiolla saattaa kestää virheiden korjaamisessa.

Prosessointiputken pitää olla toistettava, dokumentoitu ja automatisoitavissa. Etenkin silloin kun suunnitteilla on käyttäjäportaali, jonka elinkaari on useita vuosia, datan jalostava prosessointiputki on suunniteltava toistettavaksi ja automatisoitavaksi. Tämä tarkoittaa sitä, että kun lähdeorganisaation raakadata muuttuu syystä tai toisesta, nuo muutokset näkyvät portaalin jalostetussa datassa ajamalla raakadata uudelleen prosessointiputken läpi. Prosessointiputken ohjelmoinnista ja toiminnasta onkin tärkeää luoda kattava dokumentaatio, jonka avulla mahdollisesti rikkoutuvia ominaisuuksia voidaan korjata, vaikka tutkimusryhmän kokoonpano muuttuisikin.

Tutkimusryhmän sisäisen kommunikaation selkeyteen kannattaa panostaa. Koska laajoja tekstiaineistoja tutkitaan pääsääntöisesti monia organisaatioita kattavissa tutkimusryhmissä, tutkimusryhmän sisäiseen kommunikaatioon kannattaa panostaa myös datanhallinnan näkökulmasta. Selkeällä ja yksiselitteisellä kommunikaatiolla varmistetaan, että kaksi tutkijaa eivät tee samoja prosessointeja samalle aineistolle ja että versionhallinnan parissa ei ilmene epäselvyyksiä.

Prosessointien, ei datan itsensä dokumentaation tärkeys. Koska laajojen tekstiaineistojen tutkimus perustuu ensi sijassa lähdeorganisaatioilta saatavaan dataan, periaatteessa dataa itseään ei tarvitse kuvailla. Käytännössä lähdeorganisaatiot harvoin kuvailevat dataansa kovin yksityiskohtaisesti, koska alun perin aineistoa ei ole kerätty avointa julkaisemista varten – tällaisissa tapauksissa kuvailutyö jää tutkimusryhmälle. Jos lisäkuvailulle ja -metadatalle on tarvetta, niiden muotoilu on sisällytettävä osaksi muuta prosessointia. Tärkeämpää onkin tutkimusprosessien dokumentaatio, koska sillä taataan tutkimuksen läpinäkyvyys sekä välitetään eteenpäin hyviä käytäntöjä ja työkaluja. Tärkeitä dokumentoitavia asioita ovat esimerkiksi käytetyt työkalut sekä versiointitiedot (mitä käyttöjärjestelmäversiota, ohjelmakirjastoa ja lähdekoodia on käytetty jne.). 

Metadatan erillisjulkaiseminen edistää avointa tiedettä. Laajojen tekstiaineistojen tutkimusalalla on tapana kuvata prosessointiputki osana tutkimusartikkelia, mutta avoimen tieteen näkökulmasta mikään ei estä prosessointiputken kuvaamista metadatatiedostona esimerkiksi Etsimessä. Metadatatiedoissa voi kuvailla prosessointiputken, dokumentoida käytetyt työkalut ja niiden versiot ja niin edelleen. Tällaisilla metadatatiedostoilla voidaan jakaa helposti toimivia ja hyviksi havaittuja metodeja, joista muutkin tutkijat hyötyvät.

Tallennusratkaisua valittaessa on otettava huomioon muun muassa seuraavat asiat

  • yhtä kaikille sopivaa ratkaisua ei ole olemassa,
  • kuinka moni tarvitsee pääsyn datan äärelle, 
  • kuinka paljon dataa on, 
  • kuinka sensitiivistä aineisto on, 
  • tehdäänkö tutkimusta yhteistyössä muiden yliopistojen kanssa? 

Tämän vuoksi yhtä, kaikille aina sopivaa tallennusratkaisua ei ole olemassa. Huolellinen eri tallennusratkaisuihin tutustuminen on erittäin suositeltavaa. Helsingin yliopiston tarjoamat tallennusratkaisut on listattu tähän taulukkoon. Huonoimpia vaihtoehtoja ovat kaupalliset pilvipalvelut, ulkoiset kovalevyt ja muistitikut.

 

Laajojen tekstiaineistojen tapauksessa versionhallinta on korostuneessa roolissa, kun tallennusratkaisua valitaan. Kun raakadataa ajetaan useita kertoja prosessointiputken läpi, täytyy kyetä varmistamaan, että prosessoinnissa tapahtuvat datan muutokset ovat myös peruutettavissa. Jos data esimerkiksi korruptoituu ja edellinen varmuuskopio on useita iteraatioita vanha, hyvä versionhallinta säästää tutkimusryhmältä resursseja.

Tässä ehdotetaan muutamia laajoille tekstiaineistoille sopivia tallennusratkaisuja. Ehdotukset perustuvat Helsingin yliopiston tarjoamiin tallennusratkaisuihin, sekä ajatukseen tekstiaineistoista korkeintaan matalariskistä henkilötietoa sisältävänä datana.

  • Lähdekoodia varten suositellaan Helsingin yliopiston GitLabia eli version.helsinki.fi:tä.
  • Jos tutkija tekee tutkimustaan yksin Helsingin yliopistossa ja hänelle kertyy dataa alle 100 GB, kotihakemisto eli Z-asema on hyvä vaihtoehto, sillä se on riittävän tietoturvallinen ja tarjoaa tarkan pääsynhallinnan, versionhallinnan ja automaattisen varmuuskopioinnin.
  • Jos tutkija tekee tutkimustaan yksin tai vain Helsingin yliopiston tutkijoita sisältävässä ryhmässä ja dataa kertyy alle 10 TB, ryhmähakemisto eli P-asema on hyvä vaihtoehto, sillä se on riittävän tietoturvallinen ja tarjoaa tarkan pääsynhallinnan, versionhallinnan ja automaattisen varmuuskopioinnin.
  • Jos tutkimusryhmään sisältyy Helsingin yliopiston ulkopuolisia tahoja, toimivia ratkaisuja ovat esimerkiksi useat CSC:n palvelut, Fairdata IDA sekä tarvittaessa Microsoft Teams. Huomioitavaa on, että näistä moniin eivät sovellut henkilötietoa sisältävän datan tallentamiseen. Jos henkilötietoa kuitenkin on näihin pakko tallentaa, data on syytä salata (ts. kryptata esim. Cryptomator- tai 7-Zip -ohjelmat). Yleisesti käytetty tallennusratkaisu on CSC:n Allas, joskin sitä käytettäessä on otettava huomioon, että dataa ei voi prosessoida Altaassa, vaan prosessointia varten data on ladattava toiseen tallennusratkaisuun.

Tutkimuskäyttöön jalostettavista tekstiaineistoista julkaistaan yleensä tutkimusartikkelien lisäksi dataa kahdessa muodossa: jatkojalostettavana datana sekä portaalina. Jatkojalostettava data voidaan avata datajulkaisuna esimerkiksi Zenodossa ja Linked Data Finlandissa. Portaali julkaistaan erillisenä sivustona, jonne pääsy on mahdollisimman vapaata. Molemmissa kyseessä on sama data mutta eri muodossa: portaalissa data on laajemmalle yleisölle helpommin käytettävässä muodossa, datajulkaisuna se on kanssatutkijoille helpommin hyödynnettävässä ja omaan tutkimukseen sopeutettavassa muodossa. Julkaistussa datassa saattaa olla myös joitakin eroja esimerkiksi lähdeorganisaatioiden vaatimuksista – lähdeorganisaatio saattaa esimerkiksi vaatia datajulkaisusta poistettavaksi tiettyjä tietoja, joiden kohdalla portaali ohjaa lähdeorganisaation omaan palveluun.

Pitkäaikaissäilyvyys on tarpeen suunnitella etukäteen. Koska laajoja tekstiaineistoja tutkivat projektit keskittyvät tutkimuksen lisäksi portaalin ja jalostetun datan julkaisemiseen, projekteilla on erityisen pitkä häntä. Tarkoituksena on, että portaali pysyy käytettävissä projektin rahoituksen päättymisen jälkeen. Näin ollen onkin erityisen tärkeää suunnitella huolellisesti, kuinka portaalin toimivuus varmistetaan pitkällä tähtäimellä – esimerkiksi: mitä portaalille tapahtuu, kun hankkeen vastuullinen tutkija eläköityy, miten palvelinmaksujen kustannukset katetaan, kuinka ohjelmistojen päivittämisestä huolehditaan?

Linkki tulossa tähän.