Tutkijat opettavat tekoälyn käyttämään suomen kielen murteita

Kun vuorovaikutuksessa tietokoneiden kanssa puhutaan suomen eri murteilla, syntyy paljon ongelmatilanteita. Helsingin yliopiston tutkijaryhmä on kehittänyt tekoälymalleja, jotka tunnistavat ja tuottavat suomenkielisiä murteita automaattisesti sekä suoraan puheesta että tekstimuodossa.

Tiedotusvälineissä on viime aikoina puhuttu kieliaineiston keräämisestä tarkoituksena opettaa tekoälyä ymmärtämään suomen ja ruotsin kielen murteita. Koska koneäly ymmärtää yleensä suomea vain normatiivisessa muodossa, kirjakielenä, tarvitaan aitoa puhuttua kieltä parantamaan puheentunnistuksen algoritmeja. Kun vuorovaikutuksessa tietokoneiden kanssa käytetään suomen eri murteita, syntyy paljon ongelmatilanteita. Yleisesti kieltä ei voi puhua käyttämättä jonkin tasoista murretta.

Mika Hämäläisen, Niko Partasen, Khalid Alnajjarin ja Jack Rueterin muodostama tutkimusryhmä Helsingin yliopistossa on kehittänyt menetelmiä, joilla saadaan aikaan murteita sujuvasti käyttävä tekoäly. The Association for Computational Linguisticsin järjestämän Conference on Empirical Methods in Natural Language Processing -konferenssin yhteydessä.

Tekoäly voi käyttää 23 alamurretta

Tutkijat ovat laskennallisen luovuuden avulla kehittäneet menetelmän, jolla suomen kirjakieli voidaan muuntaa miksi tahansa suomen kielen 23 alamurteesta. Koneälyn tulee sekä ymmärtää murteellista suomea että kyetä ilmaisemaan itseään murteellisesti.

– Kehittämämme menetelmän avulla robotti tai jokin muu älykäs järjestelmä osaa sanoa ”Akku on lopussa” vaikkapa Etelä-Karjalan murteella ”Akku o lopussa”, Etelä-Satakunnan murteella ”Akku ol lopus” tai Länsi-Uudenmaan murteella ”Akku o lopus”, Hämäläinen kertoo.

Google Kääntäjän suosittu algoritmi ei esimerkiksi osaa kääntää murteellista suomen kielen virkettä ”Oisko sulla jotai esimerkkei siit” englanniksi, vaan tuloksena on täysin virheellinen ”Oisko sulla something like that”, koska palvelu on rakennettu toimimaan yksinomaan suomen kirjakielen pohjalta. Sama ilmiö havaitaan kaikissa muissakin suomeksi toimivissa tekoälyyn perustuvissa työkaluissa, kuten Applen Siri-avustajassa tai macOS-käyttöjärjestelmän sanelutoiminnossa.

Murteet tunnistetaan sekä puheäänestä että tekstistä

Tutkimustulosten perusteella murteiden tunnistaminen on vaikeaa pelkästään tekstin pohjalta. Murteiden tunnistaminen helpottuu, kun mallilla on käytössään myös ääntä, sillä monilla murteilla on äänteellisiä erityispiirteitä. Tutkijoiden tuoreimmat julkaistut tulokset liittyvätkin murteiden tunnistamiseen sekä puhutun äänen että tekstin perusteella.

– Murteiden kirjakielistämisellä on monia etuja. Sen ansiosta voidaan analysoida murreaineistoja suomen kirjakieltä varten suunnitelluilla työkaluilla. Lisäksi kirjakielistettyjä aineistoja voidaan käyttää haun välineenä, kun etsitään jotakin murreaineistoista, Khalid Alnajjar sanoo.

Tutkijat huomauttavat, että murteiden ymmärtäminen on monitahoinen haaste, eikä mikään malli kykene ymmärtämään ihmisen lailla luonnollista kieltä. Nyt luodut mallit avaavat kuitenkin mielenkiintoisia suuntia tutkimukselle, kuten selvittää murteiden normista poikkeamisen aste ja eri kielimuotojen lauseopilliset erot.

– Näin voidaan parantaa luonnollisen suomen kielen käsittelyyn tarkoitettuja ratkaisuja ja kehittää yksilöllisesti räätälöityjä tekoälymalleja. Jo nyt on saatu vaikuttavia tuloksia yhden ihmisen puheen tunnistamisen saralla jopa uhanalaisissa kielissä, Niko Partanen sanoo.

Tutkimusryhmä on kehittänyt vastaavanlaista kirjakielistämismenetelmää myös Suomessa puhutuille ruotsin murteille (Hämäläinen et al., 2020b) ja historialliselle suomelle (Hämäläinen et al., 2021b).

Murregeneraattoria voi testata ja murteen ”kirjakielistäjä” ja generaattorikoodi ovat julkaistu avoimesti . Myös murteen tunnistajakoodin voi löytää .

Tutkimukset

Partanen, N., Hämäläinen, M., & Alnajjar, K. (2019). . In W. Xu, A. Ritter, T. Baldwin, & A. Rahimi (Eds.), The Fifth Workshop on Noisy User-generated Text (W-NUT 2019): Proceedings of the Workshop (pp. 141–146). The Association for Computational Linguistics.

Hämäläinen, M., Partanen, N., Alnajjar, K., Rueter, J., & Poibeau, T. (2020a). . In F. A. Cardoso, P. Machado, T. Veale, & J. M. Cunha (Eds.), Proceedings of the 11th International Conference on Computational Creativity (ICCC’20) (pp. 204-211). Association for Computational Creativity.

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020b). . In GeoHumanities'20: Proceedings of the 4th ACM SIGSPATIAL Workshop on Geospatial Humanities (pp. 24–27). ACM.

Hämäläinen, M., Alnajjar, K., Partanen, N., & Rueter, J. (2021a). . In M-F. Moens, X. Huang, L. Specia, & S. Wen-tau Yih (Eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 8777-8783). The Association for Computational Linguistics.

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2021b). . In P. Denis [et al.] (Ed.), Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles (pp. 189-198). Association pour le Traitement Automatique des Langues.

15.12.2021

Paavo Ihalainen

Uutinen

Tekoäly

Jaa tämä uutinen

Uutiskirje

Tutkimukset

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020b). . In GeoHumanities'20: Proceedings of the 4th ACM SIGSPATIAL Workshop on Geospatial Humanities (pp. 24–27). ACM.