Kuka olet?
Olen Aleksi Sahala, assyriologian ja kieliteknologian tutkijatohtori. Työskentelen tällä hetkellä Helsingin yliopistolla Suomen Akatemian rahoittamassa The Origins of Emesal -projektissa, jossa päämääränä on selvittää sumerin liturgisen kielimuodon, emesalin, syntyä ja kehitystä kieliteknologian menetelmin.
Tein maisterin opinnot kieliteknologiassa ja assyriologiassa, ja väittelin tohtoriksi Helsingin yliopistolla aiheesta
Mikä on tutkimuksesi aihe?
Tutkin kieliteknologian menetelmien soveltamista muinaisten tekstien annotointiin ja sisällölliseen analyysiin. Olen erityisesti keskittynyt muinaisen Mesopotamian nuolenpääteksteihin, joita laadittiin sumeriksi noin vuosien 3200 eaa. ja 100 jaa., ja akkadiksi noin vuosien 2500 eaa. ja 100 jaa. välisenä aikana. Tämän tekstimateriaalin koneellinen analysointi on hankalaa muutamastakin syystä. Ensinnäkin dataa on verrattain vähän (muutamia miljoonia sanoja), ja toiseksi tekstimateriaali on melko fragmentaarista, sillä se on tyypillisesti kasattu savitaulujen säilyneistä palasista tai näiden muinaisista kopioista. Sanoja, niiden osia tai kokonaisia rivejä saattaa siis puuttua. Kolmanneksi niin nuolenpääkirjoitusjärjestelmä kuin sumerin ja akkadin kielten muoto-opitkin ovat monimutkaisia. Tämän johdosta useat sanat saattavat esiintyä teoreettisesti useissa tuhansissa kieliopillisissa muodoissa, ja nämä muodot voidaan puolestaan kirjoittaa jopa kymmenillä eri tavoilla.
Tärkein kiintopiste tutkimuksessani on ollut se, kuinka täysin annotoimattomasta tekstistä eli translitteraatiosta päästään mahdollisimman automaattisesti visualisoimaan esimerkiksi käsitteiden tai henkilöiden välisiä suhteita käyttämällä satoja tai tuhansia tekstejä lähdemateriaalina yhtäaikaisesti. Vaikka assyriologit ovatkin digitoineet yli 20 000 akkadinkielistä ja yli 100 000 sumerinkielistä tekstiä, perinteisesti tutkimus on perustunut siihen, että tekstejä lähiluetaan yksitellen, mikä saattaa tehdä laajojen, tekstien välisten kaavamaisuuksien hahmottamisesta haasteellista. Tietokoneavusteinen tutkimus pyrkii paikkaamaan tätä aukkoa.
Olen kehittänyt työkaluja akkadin kielen morfologiseen analyysiin (
Tällä hetkellä tutkimukseni keskittyy erityisesti erääseen sumerin kielen kielimuotoon, emesaliin, jota käytettiin muun muassa liturgisissa teksteissä. Tätä kielimuotoa on dokumentoitu vasta sumerin kuoltua puhuttuna kielenä muinaisbabylonialaisten kirjureiden laatimissa teksteissä, eikä sen tarkkaa käyttökontekstia ja kehityshistoriaa edelleenkään tunneta. Projektissa paitsi annotoidaan emesalia sisältäviä tekstejä, myös pyritään luomaan malleja, joilla voidaan ennustaa ja selittää emesalin käyttökonteksteja. Emesal-tekstejä ei koskaan laadittu kokonaan tällä kielimuodolla, vaan ne kirjoitettiin sumeriksi, ja vain osa sanoista kirjoitettiin emesaliksi ilmaisemaan, että kyseinen rivi tai katkelma tulisi lukea tällä kielimuodolla. Kyseessä on siis eräänlainen koodinvaihto kahden eri kielimuodon välillä, mutta ne kontekstit, joissa muodoista vaihdettiin toiseen eivät ole edelleenkään selviä. Tiedetään vain, että tyypillisesti emesalia esiintyi liturgisissa teksteissä sekä tietyissä tekstityypeissä kuvaamaan jumalattarien tai naispuolisten henkilöiden puhetta. Näissäkään tosin kielimuodon käyttö ei ole johdonmukaista.
Mikäli erilaisia kaavamaisuuksia tämän kielimuodon käytölle voidaan hahmottaa, tarkoitus on tutkia sitä, kuinka kielimuoto alkujaan syntyi, ja kuinka se kehittyi sen noin 2000-vuotisen käyttöhistorian aikana. Aihe on haasteellinen, sillä emesalia sisältäviä tekstejä ei ole säilynyt kuin muutama tuhat.
Miten Kielipankki liittyy tutkimukseesi?
Kielipankki on tehnyt yhteistyötä Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa pääsääntöisesti
Viimeisin projekti on ollut
Julkaisuja
Alstola, T., Zaia, S., Sahala, A., Jauhiainen, H., Svärd, S., & Lindén, K. (2019).
Alstola, T., Jauhiainen, H., Svärd, S., Sahala, A., & Lindén, K. (2023).
Bennet, E. & Sahala, A. (2023).
Ihalainen, P. & Sahala, A. (2020). Evolving Conceptualisations of Internationalism in the UK Parliament. Digital Histories, 199.
Luukko, M., Sahala, A., Hardwick, S., & Lindén, K. (2020).
Sahala, A. J. A. (2017). Johdatus sumerin kieleen. Suomen itämainen seura.
Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020).
Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020).
Sahala, A. (2021).
Sahala, A., & Töyräänvuori, J. (2022). Kirjoitustaidon kehittyminen. Teoksessa Svärd, S. & Töyräänvuori, J. (toim.), Muinaisen Lähi-idän imperiumit. Kadonneiden suurvaltojen kukoistus ja tuho, s.49–69. Gaudeamus, Helsinki.
Sahala, A., & Svärd, S. (2022).
Sahala, A., Alstola, T., Valk, J., & Lindén, K. (2023, June).
Sahala, A. & Lindén, K. (2023). A Neural Pipeline for Lemmatizing and POS-tagging Cuneiform Languages. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023.
Svärd, S., Jauhiainen, H., Sahala, A., & Lindén, K. (2018).
Svärd, S., Alstola, T., Jauhiainen, H., Sahala, A., & Lindén, K. (2020).
Työkaluja
, OpenNMT:hen perustuva neuroverkkopohjainen lemmatisaattori ja taggeri. muinaiskreikalle, latinalle, akkadin eri murteille, sumerille ja urartulle. , äärellistilainen Fomalla kirjoitettu transduktori akkadin ja erityisesti babylonian morfologialle. , hyperparametrisoitu työkalu sanavektorimallien luomiseen pienistä tekstiaineistoista hyödyntäen erilaisia sana-assosiaatiomittoja ja pääakselihajotelmaa.