Tekstejä digitoimassa

EXPRECCE digitoi uusia tekstejä Lemmatized Ancient Greek Texts -korpukseen, joka sisältää tällä hetkellä yhteensä noin 1700 kreikankielistä tekstiä. Digitoiminen on monivaiheinen prosessi, jossa apuvälineistä huolimatta tarvitaan manuaalista työtä ja tarkkaa silmää.

Moderni tutkimus kaipaa moderneja menetelmiä. Nykyaikainen tilastollinen analyysi ja tekoälyä hyödyntävä tarkastelu mahdollistaa suurten datamäärien analysoinnin nopeasti ja tehokkaasti paljastaen säännönmukaisuuksia ja merkityskokonaisuuksia, joita ei välttämättä koskaan huomaisi tekstejä yksittäin lukemalla. Tällaisen metodit vaativat kuitenkin myös sen, että data on saatavilla sellaisessa muodossa, että sitä voidaan hyödyntää. 

Lemmatisoituja kreikankielisiä tekstejä

Lemmatized Ancient Greek Text -korpus (LAGT) on Vojtěch Kašen projekti, jossa muinaisia kreikankielisiä tekstejä on saatettu lemmatisoituun (perusmuotoon palautettuun) muotoon, mikä mahdollistaa tehokkaat haut laajasta tekstimassasta. Kristillisten tekstien kohdalla kuitenkin usein ongelmana on, ettei suurta osaa niistä tehtyjä editioita ole digimuodossa vapaasti käytettävissä. Näin niitä näin ole myöskään LAGTissa. Vaikka tekstejä oli ennen osallistumistamme 1710 (noin 14 miljoonaa sanaa), EXPRECCEn kannalta olennaisesti LAGTista puuttui marttyyritekstejä ja kristillisen teologian kehityksen kannalta kriittisten vuosisatojen tekstejä, esimerkiksi kappadokialaisten isien kirjoitukset.  

Sallittuja ja kiellettyjä editioita

Vaikka tekstit itsessään ovat vanhoja, niiden painettu ja digitaalinen muoto on usein tekijänoikeudella suojattu ja niiden kopiointi kielletty. Tämän vuoksi jo esimerkiksi TLG:n (Thesaurus Linguae Graecae ®) kokoamisessa tehtyä työtä ei voida itsessään hyödyntää digitaalisten menetelmien tekstien lähteenä. Nykyaikana yhä enemmän kannatusta on saanut kuitenkin tiedon vapaa saatavuus ja ilmainen jakelu, ja tähän ideaaliin perustuen myös EXPRECCE-projekti osallistuu varhaisten kristillisten tekstien digitointiin.  

Käytännössä tämä tarkoittaa vielä nykyisellään sitä, että tekijänoikeussuojan alta poistuneita vanhoja tekstieditioita saatetaan sopivaan digitaaliseen muotoon. Projektissa mukana olleet ovat tätä tehdessään joutuneet huomaamaan, että erityisen tärkeä ja erittäin työteliäs osa digitaalisia menetelmiä hyödyntävää tutkimusta on nimenomaan tarkasteltavan materiaalin valmistelu. Vaikka analyysi itsessään helpottuu ja nopeutuu huomattavasti, vaaditun pohjatyön määrä on valtava, mikä jää helposti huomiotta. Tekstien digitointi hyödylliseen muotoon on monipolvinen ja työläs prosessi jopa nykyisillä teknologioilla. Prosessia ei voi luotettavasti täysin automatisoida, vaan manuaalista työtä joutuu tekemään jokaisessa vaiheessa. 

Ensin on löydettävä editio, jota saa vapaasti käyttää. Yritimme saada käyttöömme uusia editioita, mutta käyttöä projektissa ei sallittu.  Meille onneksi nykypäivänä monessakaan tapauksessa ei kuitenkaan tarvitse turvautua siihen, että saa kirjastosta tai antikvariaatista fyysisen kirjan käsiinsä. Korvaamaton osa prosessia onkin ollut se, että tekijänoikeussuojan alta poistuneita kirjoja löytyy valtavasti valmiiksi skannattuna esimerkiksi sivustolta archive.org. Myös suurina tekijöinä esimerkiksi Google ja kansalliset kirjastot ovat saattaneet saataville lukuisia skannattuja, vanhoja kirjoja.

Digitoinnin työvälineitä

Näissä kirjoissa kuitenkin useinkaan ei ole hyvää kopioitavissa olevaa tekstiä silloin, kun pohjateksti on kreikaksi. Skannatut teokset on saatettu syöttää automaattisen optisen tekstintunnistuksen (OCR) läpi tarkistamatta lopputulosta. Joskus teksti on jokseenkin ymmärrettävää, toisinaan se on käsittämätön merkkijono kirjaimia, numeroita erikoismerkkejä. Toisinaan tekstiä ei ole valmiiksi skannatuissa tiedostoissa ollenkaan. Tällöin prosessi täytyy alusta asti tehdä itse. 

Usein toimivimmaksi onkin osoittautunut lyhyissä osioissa tehty OCR-muunnos ja automaattisesti tunnistetun tekstin manuaalinen muokkaus. OCR-ohjelmia löytyy internetistä niin ilmaisia kuin maksullisia, ja ne voivat olla joko koneelle ladattavia tai toimia pilvessä. Jopa Windowsin kuvakaappaustyökalussa on nykyisin OCR-toiminto nimellä ”tekstitoiminnot”. Edistyneemmät ja tarkemmat työkalut ovat toisinaan kalliita, ja halvemmat tai ilmaiset työkalut eivät aina tuota haluttua lopputulosta, vaikka teksti näyttäisi nopealla vilkaisulla järkevältä. Eri ohjelmat nimittäin tunnistavat erikielisiä tekstejä hyvin vaihtelevasti. Erityisesti kreikan diakriittiset merkit ovat osoittautuneet monelle ohjelmalle haastavaksi tunnistaa oikein. Lisäksi fyysisestä kirjasta skannatut kuvat usein sisältävät erilaisia kulumia, tahroja ja muuta tunnistusta häiritsevää vikaa. Jo vanha painettu teksti tuottaa oman haasteensa; erityisesti ennen tietokonetulosteisia kirjoja tekstin painatuslaatu, musteen kestävyys ja julkaisijasta riippuen jopa ortografia saattoivat vaihdella suurestikin. Tällöin tekstiin jää helposti paljonkin virheitä, ja joskus itse kuvat ovat niin huonolaatuisia tai kuluneita, että lähdemateriaalista on vaikea tunnistaa tekstin oikeaa muotoa edes ihmisarviolla. 

Virheiden tarkastuksen apuna hyödyllisenä työkaluna on toiminut Titivillus, tietokoneohjelma antiikin kreikan sanaston lisäämiseksi Microsoft Office Wordin tekstintarkistukseen. Useassa kohdin se auttaa näkemään heti suurimman osan tekstin virheistä sanatasolla. Se ei kuitenkaan tarkastele syntaksia ja välimerkkejä, kuten Wordin tarkistus yleensä. Titivillus tarkistaa ainoastaan sen, löytyykö tekstissä oleva muoto täsmälleen samanlaisena sen sanastosta. Toisin sanoen se ei huomioi kontekstuaalisia virheitä, ja välimerkkien tai välien itsensä kohdalla tarkkuus riippuu näin täysin manuaalisesta tarkistuksesta tarkkuudesta. Näin ollen huomiotta jää helposti myös puuttuvia, ylimääräisiä tai väärin tunnistettuja aksenttimerkkejä, joskus jopa henkosmerkin suunta. Kirjaimiltaan samanlaiset sanat on voitu kirjoittaa kontekstinsa mukaan eri tavoin (akuutti tai gravis, enkliittisen sanan painon siirtyminen jne.), tai diakriittiset merkit voivat ajoittain olla ainut erimerkityksisiä sanoja toisistaan erottava tekijä. Lisäksi välimerkkien käyttö ja niiden vaikutus aksenttiin on monessa tapauksessa enemmän filologinen kuin historiallinen kysymys, joten niitä ei välttämättä saa oikein myöskään pelkän kielikorvan avulla. Joskus yhden kirjaimen muutoksella sanan merkitys muuttuu, joten väärin tunnistettu kirjain voi aiheuttaa virheen, joka on vaikeaa huomata vain teksti lukemalla. 

Tarkistustyö on tarpeen

Suureen tarkkuuteen päästään laadultaan vaihtelevan OCR-tekstin kanssa vain aikaa ja vaivaa vaativalla tarkistustyöllä. Teksti on aina lopulta tarkistettava manuaalisesti skannattuihin kuviin verraten oikein menneen tekstintunnistuksen varmistamiseksi. Vertaaminen tuottaa useimmissa tapauksissa kielikorvaa paremman – tai ainakin historiallisemman – tekstin. EXPRECCE on hyödyntänyt molempia lähestymistapoja, mutta käytännön työ on osoittanut skannattuun materiaaliin vertaamisen paljon tarkemmaksi lähestymistavaksi. Joskus lähdemateriaalissa on kuitenkin selviä painatuksessa tehtyjä virheitä, joita on ollut syytä korjata tekstin hyödyntämiseksi digitaalisesti. 

Kaiken tämän jälkeenkään kaikki työ ei ole vielä tehty. LAGT-projektin käyttöön olennaista ei ole vain merkkien ulkoasu, vaan käyttäjältä piiloon jäävä merkistökoodaus. Unicode sisältää lähes samannäköisiä (joissain fonteissa täysin samannäköisiä) merkkejä, joilla on kuitenkin pohjimmiltaan eri koodit. Lisäksi automaattiselle lemmatisoinnille on tärkeää, että välit ja välimerkit ovat oikein, eikä tekstissä ole rivinpalautuksia. LAGTiin tekstit syötetään yhtenä pitkänä tekstinä ilman formatointia, jae- ja kappalejakoa tai muita ylimääräisiä merkintöjä. 

Tämän takia tekstejä on täytynyt tarkistaa ulkoasun lisäksi syvemmällä tasolla. EXPRECCE on kehittänyt yksinkertaisen Python-ohjelman, joka tarkistaa syötettyjen merkkien koodauksen vastaavuuden. Vertailuarvona merkkien kelvollisuudelle on pidetty johdonmukaisesti transkriboidun TLG:n tekstikorpuksen koodausta. Koodauksen erotessa ne on korjattu suoraan ongelmakohtaan tai Microsoft Office Wordin makrotoiminnolla tilanteen mukaan. Makrot ovat osoittautuneet korvaamattomaksi tässä prosessissa, kun joka tekstistä ei tarvitse korjata manuaalisesti johdonmukaisesti tapahtuvia merkkivirheitä, tuplavälejä ja ylimääräisiä numerointeja tai rivinpalautuksia.  

Erityisen paljon makroille on ollut tarvetta, kun merkit ovat näyttäneet samalta. Esimerkiksi akuuttina käytetty Oxia ja Tonos ovat monella fontilla täysin samannäköiset. Lisäksi useita erilaisia yläpilkkuja ja heittomerkkejä ei helposti erota, mutta niiden koodaus poikkeaa. Riittää, että korvauksesta tekee makron, joka mahdollistaa tarvittavien toistuvien ja kaikkialla pätevien muutosten tekemisen yhdellä painalluksessa kaikissa teksteissä. Tämä on osoittautunut OCR-tekstien korjaamisen lisäksi valtavan hyödylliseksi erityisesti silloin, kun tekstin on jo digitoinut saataville joku muu, mutta käyttäen väärää merkkikoodausta ja jättäen liikaa välivirheitä LAGTin käyttöön. Näin on esimerkiksi University of Aegeanin digitoimien patrististen tekstien kanssa (koottu esimerkiksi sivulla http://khazarzar.skeptik.net/pgm/PG_Migne/), joita on hyödynnetty P.G. Mignen Patrologia-teoksesta löytyvien tekstien pohjana, korjaten niitä systemaattisesti verraten Googlen skannaamiin sarjan kirjoihin.    

Mahdollisesti suurimmat haasteet viime kädessä ovat manuaalisen tarkistelun hitaus sekä inhimilliset virheet. Kun työtä olisi käytännöllisesti katsoen loputtomiin – ja jo yksittäisen lyhyenkin tekstin valmistelu ja tarkka läpi käyminen vie tunteja toisensa jälkeen – virheitä syntyy sitä enemmän, mitä nopeammin työ suoritetaan. Resurssien mukaan osa EXPRECCEn digitoimista teksteistä onkin tarkistettu uudelleen toisen henkilön toimesta, jotta transkription virheet saataisiin minimoitua. Tähän mennessä joka kerta, kun tekstiä on tarkistanut kaksi tai useampia henkilöitä, siihen on tarvinnut tehdä korjauksia. Täydellinen transkriptio ei välttämättä siis ole realistinen tavoite, mutta tilastollisiin menetelmiin laajan aineiston kanssa toisinaan riittää, että tekstin tarkkuuden sijaan keskitykään sen määrään.  

Uudet tekstit

Saimme LAGTin seuraavaa versiota varten digitoitua yhteensä 25 tekstiä (TLG:n mukaisilla nimillä ja numeroinnilla): 

  • ACTA ANDREAE, Martyrium prius Andreae. {3150.002}  
  • ACTA ET MARTYRIUM APOLLONII, Acta et martyrium Apollonii. {0304.001} 
  • ACTA EUPLI, Acta Eupli. {2012.001} 
  • ACTA JUSTINI ET SEPTEM SODALIUM, Acta Justini et septem sodalium (recensio B). {0384.002} 
  • ACTA PAULI, Martyrium Pauli. {0388.002}  
  • ACTA PAULI, Acta Pauli et Theclae. {0388.004}  
  • ACTA PETRI, Martyrium Petri. {0389.001}  
  • ACTA SCILLITANORUM MARTYRUM, Acta Scillitanorum martyrum sive passio Sperati et sociorum. {0391.001}  
  • BASILIUS Caesariensis, In Gordium martyrem. {2040.034} 
  • BASILIUS Caesariensis, In quadraginta martyres Sebastenses. {2040.035} 
  • EPISTULA ECCLESIARUM APUD LUGDUNUM ET VIENNAM, Epistula ecclesiarum apud Lugdunum et Viennam. {1352.001} 
  • GREGORIUS NYSSENUS, De sancto Theodoro. {2017.065} 
  • JOANNES CHRYSOSTOMUS De sanctis martyribus. {2062.050} 
  • JOANNES CHRYSOSTOMUS, De sancta Pelagia virgine et martyre. {2062.043}  
  • JOANNES CHRYSOSTOMUS, De sancto hieromartyre Babyla. {2062.041} 
  • JOANNES CHRYSOSTOMUS, In sanctum Julianum martyrem. {2062.511} 
  • Pseudo-DIONYSIUS AREOPAGITA, De mystica theologia. {2798.005} 
  • TESTAMENTUM XL MARTYRUM, Testamentum xl martyrum. {2015.001} 
  • VITAE CARPI, PAPYLI ET AGATHONICAE, Martyrium sanctorum Carpi, Papyli et Agathonicae. {0390.001} 
  • VITAE SANCTI CONONIS, Martyrium Cononis. {2008.001} 
  • VITAE SANCTI DASII, Martyrium Dasii. {2010.001}  
  • VITAE SANCTI PIONII, Martyrium Pionii presbyteri et sodalium. {2005.001} 
  • VITAE SANCTI SABAE GOTHI, Passio sancti Sabae Gothi (sub auctore Athanarico). {5451.001} 
  • VITAE SANCTORUM AGAPAE, IRENAE, CHIONAE ET SODALIUM, Martyrium Agapae, Irenae, Chionae et sodalium. {2011.001}  
  • VITAE SANCTORUM POTAMIAENAE ET BASILIDIS, Martyrium Potamiaenae et Basilidis. {2007.001} 

Tämän blogitekstin on kirjoittanut Jimi Vesala, joka on tehnyt maisteritutkintoon kuuluvaa harjoitteluaan EXPRECCE-projektissa touko- ja kesäkuussa, erityisesti tekstejä digitoiden. Hän on myös osallistunut merkistökoodauksen tarkistamisohjelman kehitykseen sekä Atlas.ti -ohjelman annotointikäytön testaukseen.