Kielipankissa: Juho Leinonen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Juho Leinonen kertoo puheen automaattiseen tunnistamiseen ja kohdistamiseen sekä chattibotteihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Juho Leinonen ja opiskelen tekniikan tohtoriksi Mikko Kurimon johtamassa puheentunnistusryhmässä Aalto-yliopistossa. Aloitin jatko-opintoni vuonna 2017 työskenneltyäni sitä ennen pari vuotta teollisuuden palveluksessa.

Mikä on tutkimuksesi aihe?

Diplomityöni aiheena oli saamenkielinen puheentunnistus, josta saatua kokemusta pystyn soveltamaan myös jatko-opinnoissa. Nykyisessä chattibotteja ja puheen kohdistamista koskevassa työssäni tarvitaan kielimalleja ja akustisia malleja, joita käytetään myös automaattisessa puheentunnistuksessa. Siinä missä kielimallit auttavat puheentunnistinta tunnistamaan epäselvästi lausuttuja sanoja, tutkimani chattibotit tuottavat kielimallien avulla uutta tekstiä. Kielimalleja voidaan käyttää myös esimerkiksi chattibotin tuottaman tekstin laadun arvioimiseen. Näin syntyy kehä: Jotta tekstin laadun arviointi toimisi luotettavasti, pitäisi ensin ymmärtää, mitä laadukas teksti on, mutta samaa ymmärrystä tarvittaisiin toisaalta myös tekstin tuottamiseen chattibotilla. Ongelma onkin oikeastaan sekä insinööritieteellinen että filosofinen.

Perinteisessä puheentunnistuksessa kohteena olevalle ääninäytteelle pyritään etsimään teksti, joka vastaa näytettä mahdollisimman hyvin. Kun puheentunnistinta kehitetään, tarvitaan ns. akustisia malleja varten kuitenkin ensin koulutusdataa, jossa teksti on kohdistettu puheeseen. Tekstin ja puheen kohdistaminen onkin puheentunnistuksessa rutiinia. Kohdistaminen olisi kuitenkin tarpeellista myös muiden alojen tutkijoille, eivätkä kaikki voi ryhtyä puheentunnistuksen ammattilaisiksi ennen kuin pääsevät alkuun omassa tutkimuksessaan. Kuluneen vuoden aikana olen paketoinut ryhmämme käyttämiä tunnistus- ja kohdistustyökaluja kokonaisuudeksi, joka olisi mahdollisimman helposti jaettavissa. Koetan myös etsiä hyviä mittareita, joiden avulla puheen ja tekstin kohdistuksen laatua voitaisiin arvioida. Tavoitteenani on selvittää, mitkä akustiset mallit tai piirteet tuottavat parhaan kohdistuksen ja millaisissa tilanteissa valtakielille tehtyjä malleja voisi tai kannattaisi käyttää myös muiden, harvinaisempien kielten kohdistamiseen. Tämä tutkimus on myös avannut minulle kielitieteilijöiden maailmaa, kun yritän tehdä työkalusta heillekin mahdollisimman hyödyllisen.

Miten Kielipankki liittyy tutkimukseesi?

Hetken päähänpistosta tulin kokeilleeksi suomenkieliselle puheelle kehitettyä puheentunnistintamme saamenkielisen Giellagas-aineiston (Pohjoissaamen näytekorpus) kohdistamiseen, jolloin syntyi viimeisimmässä julkaisussani (Leinonen, Virpioja & Kurimo, 2021) kuvattu idea kielten välisestä kohdistuksesta. Yhdelle kielelle kehitettyä kohdistustyökalua voi siis mahdollisesti käyttää myös muiden kielten puheen ja tekstin kohdistamiseen, jos kielten äänne- ja kirjoitusjärjestelmät ovat riittävän samankaltaisia. Pyrin jatkossa hyödyntämään muitakin Kielipankissa olevia puheaineistoja, joissa on mukana puheeseen kohdistetut tekstit. Tutkimuksessa käyttämäni kohdistin on nykyään myös muiden tutkijoiden käytettävissä osana Aalto-yliopiston automaattista puheentunnistinta (Aalto-ASR v.2), joka on valmiiksi asennettu CSC:n Puhti-laskentaympäristöön.

Chattibottien opettamiseen käytän myös Kielipankin Suomi24-aineistoa. Voi tuntua nurinkuriselta, että tällaista kieltä käytetään ”opetustarkoituksessa”. Kielimalleja varten tarvitaan kuitenkin valtavasti tekstiä ja sopivaa aineistoa on vaikea löytää tarpeeksi suurta määrää.

Kielipankkiin liittyviä julkaisuja

Leinonen, J., Smit, P., Virpioja, S., & Kurimo, M. (2017). New baseline in automatic speech recognition for Northern Sámi. In International Workshop on Computational Linguistics for the Uralic Languages (pp. 89-99).

Leino, K., Leinonen, J., Singh, M., Virpioja, S., & Kurimo, M. (2020). FinChat: Corpus and evaluation setup for Finnish chat conversations on everyday topics. In Interspeech (pp. 429-433). International Speech Communication Association.

Leinonen, J., Virpioja, S., & Kurimo, M. (2021, May). Grapheme-Based Cross-Language Forced Alignment: Results with Uralic Languages. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press.

Lisätietoa Kielipankissa olevista kielivaroista

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.