Keramiikanpalasista koneluettaviin hieroglyfiteksteihin

Tutkimusprojektini Keramiikanpalasista avoimeen egyptologiseen dataan tavoitteena on edistää muinaisegyptiläisten hieroglyfitekstien digitaalista tutkimusta. Taustaltani olen egyptologi ja olen alusta alkaen ollut ANEEn jäsen. Olen työskennellyt ANEEn assyriologien kanssa tutkien akkadinkielisiä tekstejä projektissa, jossa käytettiin digitaalisia menetelmiä. Olin vastuussa tekstidatan esi- ja jälkikäsittelystä sekä analyysien tulosten visualisoinnista. Nykyinen projektini alkoi vuonna 2021 Suomen kulttuurirahaston apurahalla. Vuoden 2022 alusta olen saanut keskittyä projektiin Koneen säätiön kolmivuotisen rahoituksen turvin.

Digitaalisten menetelmien käyttö tekstien tutkimuksessa vaatii, että tekstit ovat koneluettavassa muodossa. Assyriologien käytössä on useita korpuksia koneluettavassa muodossa olevia nuolenpäätekstejä. ANEE:n tutkijat käyttävät paljon erityisesti Open Richly Annotated Cuneiform Corpus -palvelusta vapaasti omalle koneelle ladattavissa olevia annotoituja tekstejä. Egyptologiassa ei vastaavaa palvelua ole, vaikka muutamien verkossa toimivien portaalien kautta voi etsiä lauseita, jossa erilaisia sanoja käytetään, ja näiden palveluiden taustalla on koneluettavista teksteistä koostuvat korpukset.

Hieroglyfitekstit ovat rakenteeltaan hieman monimutkaisempia kuin monella muulla kirjoitusjärjestelmällä kirjoitetut tekstit, sillä hieroglyfimerkeistä muodostetaan yleensä ryhmiä, joissa esimerkiksi pienemmät merkit asetetaan pitkulaisen merkin ylä- tai alapuolelle (kuva 1) ja joskus merkki voi jopa olla toisen päällä. Egyptologit itse asiassa ovat jo pitkään tuottaneet koneluettavia hieroglyfitekstejä, kun he ovat käyttäneet erityisiä hieroglyfeille tarkoitettuja tekstinkäsittelyohjelmia. Näillä ohjelmilla hieroglyfit saadaan aseteltua kuten ne ovat alkuperäisessä tekstissä, ja hieroglyfitekstistä saadaan tuotettua kuva, jota voidaan sitten käyttää esimerkiksi kirjassa. Hieroglyfit tuotetaan koodilla, joka perustuu egyptologiassa yleisesti käytettyyn hieroglyfien luokitteluun, niin sanottuun Gardinerin merkkilistaan. Merkit on lajiteltu kirjaimella merkittyihin luokkiin sen mukaan mitä ne esittävät, ja jokaisella merkillä on numero siinä luokassa, johon se kuuluu (kuva 2). Näillä koodeilla tuotettu koodi on koneluettavaa, mutta se tallennetaan binääritiedostoon, jota ei pysty lukemaan ilman tarkoitukseen rakennettua ohjelmaa. Egyptologeille ei ole edes tullut mieleen julkaista tekstejä koodina, sillä he eivät muuten käytä koodeja vaan tulkitsevat tekstit suoraan translitteroiduiksi sanoiksi.

Koska hieroglyfitekstien tekstintunnistukseen ei vielä ole toimivaa menetelmää, tuotan koodattuja hieroglyfitekstejä käsin JSesh nimisellä tekstinkäsittelyohjelmalla. Lisäksi rakennan työkaluja koneluettavien tekstien käsittelyyn ja julkaisemiseen. Yksi työkalu auttaa muuntamaan koodatun tekstin sisältävän binääritiedoston tekstitiedostoksi. Eräs projektin päätavoitteista on rakentaa työnkulku koodattujen hieroglyfitekstien puoliautomaattiseen translitteroimiseen. Sitä varten olen luonut sanafrekvenssikielimallit kahdesta saatavilla olevasta tekstikorpuksesta Ramses Translitteration Corpuksesta ja Thesaurus Linguae Aegyptiaesta. Kielimallit koostuvat siis kaikista teksteissä olevista sanamuodoista ja niiden määristä sekä translitteraatioista. Ensimmäinen tehtävä on tekstin jakaminen sanoiksi, sillä hieroglyfitekstit eivät kerro sana- tai lauserajoja. Sitten käytetään kielimalleja sanan translitteroimiseksi. Kaikkia translitteroitavassa lauseessa olevia sanamuotoja ei välttämättä löydy kielimallista, sillä sanat voitiin kirjoittaa monin eri tavoin. Silloin voidaan tutkia osia sanasta ja mitä translitteraatioita niillä on sekä esimerkiksi katsoa mikä niistä on todennäköisin edellisen sanan kanssa.

Egyptologiassa ei ole perinnettä julkaista tutkimusdataa muiden tutkijoiden saataville, saati että sen uusiokäyttöä edistettäisiin julkaisemalla se avoimella lisenssillä. Projektissani tuotetut hieroglyfitekstit julkaistaan kuitenkin avoimesti koneluettavassa muodossa. Myös työkalut tullaan julkaisemaan muiden tutkijoiden käyttöön.