Kielipankissa: Aleksi Sahala

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aleksi Sahala kertoo, millä tavoin kieliteknologian menetelmiä voidaan soveltaa muinaisten tekstien tutkimukseen, esim. tekstimateriaalin annotointiin ja sisällölliseen analyysiin.

Kuka olet?

Olen Aleksi Sahala, assyriologian ja kieliteknologian tutkijatohtori. Työskentelen tällä hetkellä Helsingin yliopistolla Suomen Akatemian rahoittamassa The Origins of Emesal -projektissa, jossa päämääränä on selvittää sumerin liturgisen kielimuodon, emesalin, syntyä ja kehitystä kieliteknologian menetelmin.

Tein maisterin opinnot kieliteknologiassa ja assyriologiassa, ja väittelin tohtoriksi Helsingin yliopistolla aiheesta Contributions to Computational Assyriology. Vietin syyslukukauden 2022 vierailevana tutkijana Berkeleyn yliopistolla Kaliforniassa, ja suunnitelmissa on tehdä toinen tutkijavierailu Innsbruckin yliopistolle Itävaltaan 2024. Olen toiminut tiiviissä yhteistyössä myös Helsingin yliopistolla toimivan Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa.

Mikä on tutkimuksesi aihe?

Tutkin kieliteknologian menetelmien soveltamista muinaisten tekstien annotointiin ja sisällölliseen analyysiin. Olen erityisesti keskittynyt muinaisen Mesopotamian nuolenpääteksteihin, joita laadittiin sumeriksi noin vuosien 3200 eaa. ja 100 jaa., ja akkadiksi noin vuosien 2500 eaa. ja 100 jaa. välisenä aikana. Tämän tekstimateriaalin koneellinen analysointi on hankalaa muutamastakin syystä. Ensinnäkin dataa on verrattain vähän (muutamia miljoonia sanoja), ja toiseksi tekstimateriaali on melko fragmentaarista, sillä se on tyypillisesti kasattu savitaulujen säilyneistä palasista tai näiden muinaisista kopioista. Sanoja, niiden osia tai kokonaisia rivejä saattaa siis puuttua. Kolmanneksi niin nuolenpääkirjoitusjärjestelmä kuin sumerin ja akkadin kielten muoto-opitkin ovat monimutkaisia. Tämän johdosta useat sanat saattavat esiintyä teoreettisesti useissa tuhansissa kieliopillisissa muodoissa, ja nämä muodot voidaan puolestaan kirjoittaa jopa kymmenillä eri tavoilla.

Tärkein kiintopiste tutkimuksessani on ollut se, kuinka täysin annotoimattomasta tekstistä eli translitteraatiosta päästään mahdollisimman automaattisesti visualisoimaan esimerkiksi käsitteiden tai henkilöiden välisiä suhteita käyttämällä satoja tai tuhansia tekstejä lähdemateriaalina yhtäaikaisesti. Vaikka assyriologit ovatkin digitoineet yli 20 000 akkadinkielistä ja yli 100 000 sumerinkielistä tekstiä, perinteisesti tutkimus on perustunut siihen, että tekstejä lähiluetaan yksitellen, mikä saattaa tehdä laajojen, tekstien välisten kaavamaisuuksien hahmottamisesta haasteellista. Tietokoneavusteinen tutkimus pyrkii paikkaamaan tätä aukkoa.

Olen kehittänyt työkaluja akkadin kielen morfologiseen analyysiin (BabyFST), useiden historiallisten kielten neuroverkkopohjaiseen perusmuotoistukseen eli lemmaukseen sekä sanaluokkajäsennykseen, joilla kirjoitusjärjestelmän ja muoto-opillisen monimutkaisuuden aiheuttamia ongelmia voidaan lieventää (BabyLemmatizer). Lisäksi olen tutkinut sitä, kuinka käsitteiden semanttisia suhteita voidaan laskea ja visualisoida pienissä ja rikkonaisissa korpuksissa sanavektoreiden ja assosiaatiomittojen avulla (PMI Embeddings).

Tällä hetkellä tutkimukseni keskittyy erityisesti erääseen sumerin kielen kielimuotoon, emesaliin, jota käytettiin muun muassa liturgisissa teksteissä. Tätä kielimuotoa on dokumentoitu vasta sumerin kuoltua puhuttuna kielenä muinaisbabylonialaisten kirjureiden laatimissa teksteissä, eikä sen tarkkaa käyttökontekstia ja kehityshistoriaa edelleenkään tunneta. Projektissa paitsi annotoidaan emesalia sisältäviä tekstejä, myös pyritään luomaan malleja, joilla voidaan ennustaa ja selittää emesalin käyttökonteksteja. Emesal-tekstejä ei koskaan laadittu kokonaan tällä kielimuodolla, vaan ne kirjoitettiin sumeriksi, ja vain osa sanoista kirjoitettiin emesaliksi ilmaisemaan, että kyseinen rivi tai katkelma tulisi lukea tällä kielimuodolla. Kyseessä on siis eräänlainen koodinvaihto kahden eri kielimuodon välillä, mutta ne kontekstit, joissa muodoista vaihdettiin toiseen eivät ole edelleenkään selviä. Tiedetään vain, että tyypillisesti emesalia esiintyi liturgisissa teksteissä sekä tietyissä tekstityypeissä kuvaamaan jumalattarien tai naispuolisten henkilöiden puhetta. Näissäkään tosin kielimuodon käyttö ei ole johdonmukaista.

Mikäli erilaisia kaavamaisuuksia tämän kielimuodon käytölle voidaan hahmottaa, tarkoitus on tutkia sitä, kuinka kielimuoto alkujaan syntyi, ja kuinka se kehittyi sen noin 2000-vuotisen käyttöhistorian aikana. Aihe on haasteellinen, sillä emesalia sisältäviä tekstejä ei ole säilynyt kuin muutama tuhat.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki on tehnyt yhteistyötä Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa pääsääntöisesti annotoimalla nuolenpääkirjoituksella laadittuja tekstiaineistoja Korp-konkordanssipalveluun. Olen vastannut näiden aineistojen keräämisestä ja muuntamisesta tarvittavaan VRT-muotoon sekä näiden annotoinnista ja harmonisoinnista kehittämilläni työkaluilla, jotta aineistoja voidaan käyttää Korpissa.

Viimeisin projekti on ollut Achemenet-korpuksen sisältämien uusbabylonialaisten laki- ja hallinnollisten tekstien annotointi ja harmonisointi jo olemassa olevien tekstikokoelmien kanssa.

Julkaisuja

Alstola, T., Zaia, S., Sahala, A., Jauhiainen, H., Svärd, S., & Lindén, K. (2019). Aššur and his friends: a statistical analysis of neo-assyrian texts. Journal of Cuneiform Studies, 71(1), 159–180.

Alstola, T., Jauhiainen, H., Svärd, S., Sahala, A., & Lindén, K. (2023). Digital Approaches to Analyzing and Translating Emotion: What Is Love?. In The Routledge Handbook of Emotions in the Ancient Near East. Taylor & Francis.

Bennet, E. & Sahala, A. (2023). Using Word Embeddings for Identifying Emotions Relating to the Body in a Neo-Assyrian Corpus. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023.

Ihalainen, P. & Sahala, A. (2020). Evolving Conceptualisations of Internationalism in the UK Parliament. Digital Histories, 199.

Luukko, M., Sahala, A., Hardwick, S., & Lindén, K. (2020). Akkadian treebank for early neo-assyrian royal inscriptions. In Proceedings of the 19th International Workshop on Treebanks and Linguistic Theories. The Association for Computational Linguistics.

Sahala, A. J. A. (2017). Johdatus sumerin kieleen. Suomen itämainen seura.

Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020). BabyFST: Towards a finite-state based computational model of ancient babylonian. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3886–3894).

Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020). Automated phonological transcription of Akkadian cuneiform text. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). European Language Resources Association (ELRA).

Sahala, A. (2021). Contributions to Computational Assyriology. PhD Thesis. University of Helsinki.

Sahala, A., & Töyräänvuori, J. (2022). Kirjoitustaidon kehittyminen. Teoksessa Svärd, S. & Töyräänvuori, J. (toim.), Muinaisen Lähi-idän imperiumit. Kadonneiden suurvaltojen kukoistus ja tuho, s.49–69. Gaudeamus, Helsinki.

Sahala, A., & Svärd, S. (2022). Language technology approach to “seeing” in Akkadian. In The Routledge Handbook of the Senses in the Ancient Near East. Taylor & Francis.

Sahala, A., Alstola, T., Valk, J., & Lindén, K. (2023, June). Lemmatizing and POS-tagging Akkadian with BabyLemmatizer and Dictionary-Based Post-Correction. In Selected papers from the CLARIN Annual Conference 2022 (pp. 111–119).

Sahala, A. & Lindén, K. (2023). A Neural Pipeline for Lemmatizing and POS-tagging Cuneiform Languages. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023.

Svärd, S., Jauhiainen, H., Sahala, A., & Lindén, K. (2018). Semantic Domains in Akkadian Texts. CyberResearch on the Ancient Near East and Neighboring Regions. Case Studies on Archaeological Data, Objects, Texts, and Digital Archiving, 2, 224–256.

Svärd, S., Alstola, T., Jauhiainen, H., Sahala, A., & Lindén, K. (2020). Fear in akkadian texts: New digital perspectives on lexical semantics. In The Expression of Emotions in Ancient Egypt and Mesopotamia (pp. 470–502). Brill.

Työkaluja

  • BabyLemmatizer, OpenNMT:hen perustuva neuroverkkopohjainen lemmatisaattori ja taggeri. Esiopetettuja malleja muinaiskreikalle, latinalle, akkadin eri murteille, sumerille ja urartulle.
  • BabyFST, äärellistilainen Fomalla kirjoitettu transduktori akkadin ja erityisesti babylonian morfologialle.
  • PMI-Embeddings, hyperparametrisoitu työkalu sanavektorimallien luomiseen pienistä tekstiaineistoista hyödyntäen erilaisia sana-assosiaatiomittoja ja pääakselihajotelmaa.

Aineistoja

Lisätietoa

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.