Insamling av språkdata för att lära AI förstå finska och finlandssvenska dialekter har varit på tapeten den senaste tiden. Att tala utan någon form av dialekt är i princip omöjligt. Eftersom AI vanligen endast förstår den normativa formen av finska och svenska, det vill säga skriftspråken, behövs därför äkta, talat språk för att förbättra algoritmerna för taligenkänning.
En forskargrupp vid Helsingfors universitet bestående av Mika Hämäläinen, Niko Partanen, Khalid Alnajjar och Jack Rueter har utvecklat metoder med vilka AI kan tränas till en smidig användning av dialekter. Deras resultat publicerades i samband med konferensen Conference on Empirical Methods in Natural Language Processing som organiseras av The Association for Computational Linguistics.
AI som bemästrar 23 finska dialekter
Med hjälp av beräkningskreativitet har forskarna utvecklat en metod, med vilken finskans skriftspråk kan varieras till vilken som helst av 23 finska dialekter. Maskinintelligensen ska både förstå dialektalt språk och kunna uttrycka sig på dialekt.
– Med hjälp av vår metod kan en robot eller något annat intelligent system t.ex. säga "Batteriet är tomt" (Akku on lopussa) på dialekt från Södra Karelen: "Akku o lopussa", från södra Satakunda: "Akku ol lopus" eller från västra Nyland: "Akku o lopus", säger Hämäläinen.
Googles populära översättningsalgoritm kan t.ex. inte översätta den dialektala finska meningen "Oisko sulla jotai esimerkkei siit" till engelska. Eftersom tjänsten baserar sig på det finska skriftspråket, översätter den meningen felaktigt till "Oisko sulla something like that". Samma fenomen förekommer i andra AI-baserade verktyg, som Apples Siri eller macOS-operativsystemets dikteringsfunktion.
Dialekter känns igen både i talad och skriftlig form
Forskningsresultaten visar att det är svårt att känna igen dialekter endast utifrån text. Eftersom många dialekter har speciella uttal känner modellen lättare igen dialekten om den har tillgång även till ljud. Forskarnas senast publicerade resultat handlar därför just om igenkänning av både talade och skrivna dialekter.
– Det finns många fördelar med att göra skriftspråk av dialekter. Till exempel kommer man att kunna analysera dialektmaterial med verktyg som utvecklats för skriftspråk. Dessutom kan det normanpassade materialet användas vid sökningar i dialektmaterial, säger Khalid Alnajjar.
Forskarna påpekar att det är en mångfacetterad utmaning att förstå dialekter, och att ingen modell kan förstå naturligt språk så som människan kan. Modellerna som de nu har skapat öppnar dock upp för nya intressanta forskningsmöjligheter, som att utreda hur mycket dialekter avviker från normen samt de grammatikaliska skillnaderna mellan olika språkformer.
– På detta sätt kan vi förbättra lösningarna för behandling av naturliga språk och utveckla individuellt anpassade modeller för AI. Redan nu har vi sett imponerande resultat av taligenkänning baserad på en enskild individs tal, till och med inom utrotningshotade språk, säger Niko Partanen.
Forskningsgruppen har också utvecklat en motsvarande metod för att normanpassa de svenska dialekterna som talas i Finland (Hämäläinen et al., 2020b) och historisk finska (Hämäläinen et al., 2021b).
Man kan testa dialektgeneratorn på webben, och "normanpassaren" för dialekter och generatorkoden finns öppet tillgängliga på GitHub. Igenkänningskoden för dialekter finns också på GitHub.