Kuka olet?
Olen Juho Leinonen ja opiskelen tekniikan tohtoriksi Mikko Kurimon johtamassa
Mikä on tutkimuksesi aihe?
Diplomityöni aiheena oli saamenkielinen puheentunnistus, josta saatua kokemusta pystyn soveltamaan myös jatko-opinnoissa. Nykyisessä chattibotteja ja puheen kohdistamista koskevassa työssäni tarvitaan kielimalleja ja akustisia malleja, joita käytetään myös automaattisessa puheentunnistuksessa. Siinä missä kielimallit auttavat puheentunnistinta tunnistamaan epäselvästi lausuttuja sanoja, tutkimani chattibotit tuottavat kielimallien avulla uutta tekstiä. Kielimalleja voidaan käyttää myös esimerkiksi chattibotin tuottaman tekstin laadun arvioimiseen. Näin syntyy kehä: Jotta tekstin laadun arviointi toimisi luotettavasti, pitäisi ensin ymmärtää, mitä laadukas teksti on, mutta samaa ymmärrystä tarvittaisiin toisaalta myös tekstin tuottamiseen chattibotilla. Ongelma onkin oikeastaan sekä insinööritieteellinen että filosofinen.
Perinteisessä puheentunnistuksessa kohteena olevalle ääninäytteelle pyritään etsimään teksti, joka vastaa näytettä mahdollisimman hyvin. Kun puheentunnistinta kehitetään, tarvitaan ns. akustisia malleja varten kuitenkin ensin koulutusdataa, jossa teksti on kohdistettu puheeseen. Tekstin ja puheen kohdistaminen onkin puheentunnistuksessa rutiinia. Kohdistaminen olisi kuitenkin tarpeellista myös muiden alojen tutkijoille, eivätkä kaikki voi ryhtyä puheentunnistuksen ammattilaisiksi ennen kuin pääsevät alkuun omassa tutkimuksessaan. Kuluneen vuoden aikana olen paketoinut ryhmämme käyttämiä tunnistus- ja kohdistustyökaluja kokonaisuudeksi, joka olisi mahdollisimman helposti jaettavissa. Koetan myös etsiä hyviä mittareita, joiden avulla puheen ja tekstin kohdistuksen laatua voitaisiin arvioida. Tavoitteenani on selvittää, mitkä akustiset mallit tai piirteet tuottavat parhaan kohdistuksen ja millaisissa tilanteissa valtakielille tehtyjä malleja voisi tai kannattaisi käyttää myös muiden, harvinaisempien kielten kohdistamiseen. Tämä tutkimus on myös avannut minulle kielitieteilijöiden maailmaa, kun yritän tehdä työkalusta heillekin mahdollisimman hyödyllisen.
Miten Kielipankki liittyy tutkimukseesi?
Hetken päähänpistosta tulin kokeilleeksi suomenkieliselle puheelle kehitettyä puheentunnistintamme saamenkielisen Giellagas-aineiston (
Chattibottien opettamiseen käytän myös Kielipankin
Kielipankkiin liittyviä julkaisuja
Leinonen, J., Smit, P., Virpioja, S., & Kurimo, M. (2017).
Leino, K., Leinonen, J., Singh, M., Virpioja, S., & Kurimo, M. (2020).
Leinonen, J., Virpioja, S., & Kurimo, M. (2021, May).
Lisätietoa Kielipankissa olevista kielivaroista
(Giellagas)