Kielipankissa: Mikko Kurimo

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mikko Kurimo kertoo automaattiseen puheentunnistukseen liittyvästä tutkimuksestaan.

Kuka olet?

Olen puheen- ja kielenkäsittelyn professori ja puheentunnistuksen tutkimusryhmän johtaja Aalto-yliopiston signaalinkäsittelyn ja akustiikan laitoksella.

Mikä on tutkimuksesi aihe?

Kehitin 25 vuotta sitten väitöskirjatutkimuksessani neuroverkkoalgoritmeja, joilla opetin automaattista puheentunnistusta tarkemmaksi ja robustimmaksi. Äänteiden tilastollisten mallien opettamiseen tarvitaan suuria puheaineistoja, joissa äänteet on etukäteen kohdistettu tekstiin. Sellaisia oli kuitenkin tuohon aikaan saatavilla hyvin vähän. Niinpä tutkimusryhmämme joutui käytännössä keräämään ja käsittelemään aineistot itse. Työmme helpottui, kun saimme kehitettyä automaattisia menetelmiä puheen ja tekstin kohdistamiseen keskenään, jolloin suomen puheentunnistimen opettamisessa päästiin hyödyntämään äänikirjoja sekä radio- ja televisiouutisia (esim. FBC – Suomalainen radio- ja tv-korpus).

Pelkällä yksittäisten äänteiden mallintamisella ei kuitenkaan päästä riittävään tarkkuuteen, koska puheessa äänteet eivät erotu selvästi eivätkä aina samanlaisina vaan mukautuvat sana- ja lauseyhteyteen. Siksi puheentunnistimelle opetetaan myös malli käytetystä kielestä. Kielimallin avulla tunnistin päättelee, mitä sanoja ja lauseita puheen sisältämät äänneyhdistelmät todennäköisesti edustavat. Kielimallin opettamista varten tarvitaan valtava määrä tekstejä, joissa kieltä käytetään mahdollisimman monipuolisesti. Suomenkielisen puheentunnistimen opettamiseen on käytetty esimerkiksi Kielipankissa olevaa Suomen kielen tekstikokoelmaa (FTC).

Kun ääneen lukemisen ja sanelupuheen muuntaminen tekstiksi onnistuu tarpeeksi hyvin, tätä teknologiaa voidaan tavallisen tekstin sanelun lisäksi käyttää monissa hyödyllisissä sovelluksissa, esimerkiksi valmisteltujen puheiden litteroinnissa ja esitysten ja televisio-ohjelmien sanelutekstityksessä. Vielä enemmän minua kiinnostaa kuitenkin luonnollinen ja spontaani puhe, jota me kaikki käytämme arkipäiväisissä keskusteluissa ja kertomuksissa. Koska vapaa puhe on ihmiselle tehokkain viestintätapa, sitä ymmärtävä puheentunnistus on avainasemassa myös silloin, kun kehitetään ihmisen kanssa kommunikoivaa tekoälyä.

Keskustelupuheen mallien opettamisen vaikeutena on yhtäältä puheen valtava variaatio ja toisaalta se, että tarkasti litteroituja luonnollisen puheen aineistoja on heikosti saatavilla puheentunnistuksen opettamista varten. Koska kirjoitettu kieli poikkeaa monin tavoin puhutusta kielestä, on kielimallien opettamiseen tarvittavat tekstiaineistotkin käytännössä tuotettava litteroimalla ne ensin puheesta.

Miten Kielipankki liittyy tutkimukseesi?

Ensimmäisen keskustelupuheen puheentunnistimen opettamiseen käytimme itse keräämämme DSPCON-aineiston lisäksi FinDialogue-korpusta. Kielimallit opetettiin suodattamalla em. aineistojen perusteella puhutun kielen kaltaisia osia tekstimuotoisista keskusteluista.

Parhaillaan valmistelemme julkaistaviksi kahta uutta vapaan puheen korpusta, Eduskunnan täysistuntokeskustelujen laajennusta ja Lahjoita Puhetta -kampanjassa kerättyä aineistoa. Kummassakin on puhetta noin 4000 tuntia – siis merkittävästi enemmän kuin kaikissa aiemmin julkaistuissa suomenkielisissä puheentunnistuksen opettamiseen soveltuvissa puhekorpuksissa yhteensä. Uskon, että uusien aineistojen avulla voimme merkittävästi parantaa myös Aallon puheentunnistinta (Aalto-ASR), jonka uusin versio (Aalto-ASR 2.1) on tällä hetkellä käytettävissä Kielipankin kautta.

Kielipankkiin liittyviä julkaisuja

Mikko Kurimo (1997). Using Self-Organizing Maps and Learning Vector Quantization for Mixture Density Hidden Markov Models. PhD thesis, Helsinki University of Technology, Espoo, Finland.

Mikko Kurimo, Vesa Siivola, Teemu Hirsimäki, Janne Pylkkönen, Reima Karhila, Peter Smit, Seppo Enarvi, André Mansikkaniemi, Matti Varjokallio, Ulpu Remes, Heikki Kallasjoki, Sami Keronen, Katri Leino, Ville T. Turunen & Kalle Palomäki (tekijän nimet eivät ole missään erityisessä järjestyksessä, paitsi projektin johtaja mainitaan ensimmäisenä). 2000 –2016. AaltoASR – rajoittamattoman sanaston jatkuvan puheen automaattinen tunnistin avoimella lähdekoodilla, Aalto-yliopisto.

Seppo Enarvi & Mikko Kurimo (2013). Studies on Training Text Selection for Conversational Finnish Language Modeling. In Proceedings of the 10th International Workshop on Spoken Language Translation (IWSLT), Heidelberg, Germany, s. 256–263.

André Mansikkaniemi, Peter Smit & Mikko Kurimo (2017). Automatic Construction of the Finnish Parliament Speech Corpus. Proceedings of Interspeech 2017, Vol. 8, s. 3762–3766.

Juho Leinonen, Sami Virpioja & Mikko Kurimo (2021). Grapheme-Based Cross-Language Forced Alignment: Results with Uralic Languages. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press.

Peter Smit, Sami Virpioja & Mikko Kurimo (2021). Advances in subword-based HMM-DNN speech recognition across languages. Computer Speech & Language,Vol. 66.

Lisätietoa Kielipankissa olevista kielivaroista

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.