Kuka olet?
Olen puheen- ja kielenkäsittelyn professori ja
Mikä on tutkimuksesi aihe?
Kehitin 25 vuotta sitten väitöskirjatutkimuksessani neuroverkkoalgoritmeja, joilla opetin automaattista puheentunnistusta tarkemmaksi ja robustimmaksi. Äänteiden tilastollisten mallien opettamiseen tarvitaan suuria puheaineistoja, joissa äänteet on etukäteen kohdistettu tekstiin. Sellaisia oli kuitenkin tuohon aikaan saatavilla hyvin vähän. Niinpä tutkimusryhmämme joutui käytännössä keräämään ja käsittelemään aineistot itse. Työmme helpottui, kun saimme kehitettyä automaattisia menetelmiä puheen ja tekstin kohdistamiseen keskenään, jolloin suomen puheentunnistimen opettamisessa päästiin hyödyntämään äänikirjoja sekä radio- ja televisiouutisia (esim.
Pelkällä yksittäisten äänteiden mallintamisella ei kuitenkaan päästä riittävään tarkkuuteen, koska puheessa äänteet eivät erotu selvästi eivätkä aina samanlaisina vaan mukautuvat sana- ja lauseyhteyteen. Siksi puheentunnistimelle opetetaan myös malli käytetystä kielestä. Kielimallin avulla tunnistin päättelee, mitä sanoja ja lauseita puheen sisältämät äänneyhdistelmät todennäköisesti edustavat. Kielimallin opettamista varten tarvitaan valtava määrä tekstejä, joissa kieltä käytetään mahdollisimman monipuolisesti. Suomenkielisen puheentunnistimen opettamiseen on käytetty esimerkiksi Kielipankissa olevaa
Kun ääneen lukemisen ja sanelupuheen muuntaminen tekstiksi onnistuu tarpeeksi hyvin, tätä teknologiaa voidaan tavallisen tekstin sanelun lisäksi käyttää monissa hyödyllisissä sovelluksissa, esimerkiksi valmisteltujen puheiden litteroinnissa ja esitysten ja televisio-ohjelmien sanelutekstityksessä. Vielä enemmän minua kiinnostaa kuitenkin luonnollinen ja spontaani puhe, jota me kaikki käytämme arkipäiväisissä keskusteluissa ja kertomuksissa. Koska vapaa puhe on ihmiselle tehokkain viestintätapa, sitä ymmärtävä puheentunnistus on avainasemassa myös silloin, kun kehitetään ihmisen kanssa kommunikoivaa tekoälyä.
Keskustelupuheen mallien opettamisen vaikeutena on yhtäältä puheen valtava variaatio ja toisaalta se, että tarkasti litteroituja luonnollisen puheen aineistoja on heikosti saatavilla puheentunnistuksen opettamista varten. Koska kirjoitettu kieli poikkeaa monin tavoin puhutusta kielestä, on kielimallien opettamiseen tarvittavat tekstiaineistotkin käytännössä tuotettava litteroimalla ne ensin puheesta.
Miten Kielipankki liittyy tutkimukseesi?
Ensimmäisen keskustelupuheen puheentunnistimen opettamiseen käytimme itse keräämämme
Parhaillaan valmistelemme julkaistaviksi kahta uutta vapaan puheen korpusta,
Kielipankkiin liittyviä julkaisuja
Mikko Kurimo (1997). Using Self-Organizing Maps and Learning Vector Quantization for Mixture Density Hidden Markov Models. PhD thesis, Helsinki University of Technology, Espoo, Finland.
Mikko Kurimo, Vesa Siivola, Teemu Hirsimäki, Janne Pylkkönen, Reima Karhila, Peter Smit, Seppo Enarvi, André Mansikkaniemi, Matti Varjokallio, Ulpu Remes, Heikki Kallasjoki, Sami Keronen, Katri Leino, Ville T. Turunen & Kalle Palomäki (tekijän nimet eivät ole missään erityisessä järjestyksessä, paitsi projektin johtaja mainitaan ensimmäisenä). 2000 –2016. AaltoASR – rajoittamattoman sanaston jatkuvan puheen automaattinen tunnistin avoimella lähdekoodilla, Aalto-yliopisto.
Seppo Enarvi & Mikko Kurimo (2013).
André Mansikkaniemi, Peter Smit & Mikko Kurimo (2017).
Juho Leinonen, Sami Virpioja & Mikko Kurimo (2021).
Peter Smit, Sami Virpioja & Mikko Kurimo (2021).
Lisätietoa Kielipankissa olevista kielivaroista
; Kielipankissa