Forskare lär AI att känna igen finska dialekter

För artificiell intelligens, som oftast enbart tränats för att förstå skriftspråk, är talat språk och dialekter en utmaning. Nu har forskare vid Helsingfors universitet utvecklat AI-modeller som automatiskt kan känna igen och producera finska dialekter både i talad och i skriven form.

Insamling av språkdata för att lära AI förstå finska och finlandssvenska dialekter har varit på tapeten den senaste tiden. Att tala utan någon form av dialekt är i princip omöjligt. Eftersom AI vanligen endast förstår den normativa formen av finska och svenska, det vill säga skriftspråken, behövs därför äkta, talat språk för att förbättra algoritmerna för taligenkänning.

En forskargrupp vid Helsingfors universitet bestående av Mika Hämäläinen, Niko Partanen, Khalid Alnajjar och Jack Rueter har utvecklat metoder med vilka AI kan tränas till en smidig användning av dialekter. Deras resultat publicerades i samband med konferensen Conference on Empirical Methods in Natural Language Processing som organiseras av The Association for Computational Linguistics.

AI som bemästrar 23 finska dialekter

Med hjälp av beräkningskreativitet har forskarna utvecklat en metod, med vilken finskans skriftspråk kan varieras till vilken som helst av 23 finska dialekter. Maskinintelligensen ska både förstå dialektalt språk och kunna uttrycka sig på dialekt.

– Med hjälp av vår metod kan en robot eller något annat intelligent system t.ex. säga "Batteriet är tomt" (Akku on lopussa) på dialekt från Södra Karelen: "Akku o lopussa", från södra Satakunda: "Akku ol lopus" eller från västra Nyland: "Akku o lopus", säger Hämäläinen.

Googles populära översättningsalgoritm kan t.ex. inte översätta den dialektala finska meningen "Oisko sulla jotai esimerkkei siit" till engelska. Eftersom tjänsten baserar sig på det finska skriftspråket, översätter den meningen felaktigt till "Oisko sulla something like that". Samma fenomen förekommer i andra AI-baserade verktyg, som Apples Siri eller macOS-operativsystemets dikteringsfunktion.

Dialekter känns igen både i talad och skriftlig form

Forskningsresultaten visar att det är svårt att känna igen dialekter endast utifrån text. Eftersom många dialekter har speciella uttal känner modellen lättare igen dialekten om den har tillgång även till ljud. Forskarnas senast publicerade resultat handlar därför just om igenkänning av både talade och skrivna dialekter.

– Det finns många fördelar med att göra skriftspråk av dialekter. Till exempel kommer man att kunna analysera dialektmaterial med verktyg som utvecklats för skriftspråk. Dessutom kan det normanpassade materialet användas vid sökningar i dialektmaterial, säger Khalid Alnajjar.

Forskarna påpekar att det är en mångfacetterad utmaning att förstå dialekter, och att ingen modell kan förstå naturligt språk så som människan kan. Modellerna som de nu har skapat öppnar dock upp för nya intressanta forskningsmöjligheter, som att utreda hur mycket dialekter avviker från normen samt de grammatikaliska skillnaderna mellan olika språkformer.

– På detta sätt kan vi förbättra lösningarna för behandling av naturliga språk och utveckla individuellt anpassade modeller för AI. Redan nu har vi sett imponerande resultat av taligenkänning baserad på en enskild individs tal, till och med inom utrotningshotade språk, säger Niko Partanen.

Forskningsgruppen har också utvecklat en motsvarande metod för att normanpassa de svenska dialekterna som talas i Finland (Hämäläinen et al., 2020b) och historisk finska (Hämäläinen et al., 2021b).

Man kan testa dialektgeneratorn på webben, och "normanpassaren" för dialekter och generatorkoden finns öppet tillgängliga på GitHub. Igenkänningskoden för dialekter finns också på GitHub.

Forskningsmaterial:

Partanen, N., Hämäläinen, M., & Alnajjar, K. (2019). Dialect Text Normalization to Normative Standard Finnish. In W. Xu, A. Ritter, T. Baldwin, & A. Rahimi (Eds.), The Fifth Workshop on Noisy User-generated Text (W-NUT 2019): Proceedings of the Workshop (pp. 141–146). The Association for Computational Linguistics.

Hämäläinen, M., Partanen, N., Alnajjar, K., Rueter, J., & Poibeau, T. (2020a). Automatic Dialect Adaptation in Finnish and its Effect on Perceived Creativity. In F. A. Cardoso, P. Machado, T. Veale, & J. M. Cunha (Eds.), Proceedings of the 11th International Conference on Computational Creativity (ICCC’20) (pp. 204-211). Association for Computational Creativity.

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020b). Normalization of Different Swedish Dialects Spoken in Finland. In GeoHumanities'20: Proceedings of the 4th ACM SIGSPATIAL Workshop on Geospatial Humanities (pp. 24–27). ACM.

Hämäläinen, M., Alnajjar, K., Partanen, N., & Rueter, J. (2021a). Finnish Dialect Identification: The Effect of Audio and Text. In M-F. Moens, X. Huang, L. Specia, & S. Wen-tau Yih (Eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 8777-8783). The Association for Computational Linguistics.

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2021b). Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography. In P. Denis [et al.] (Ed.), Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles (pp. 189-198). Association pour le Traitement Automatique des Langues.