Kielipankissa: Aku Rouhe

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aku Rouhe kertoo meille puheentunnistukseen liittyvästä tutkimuksestaan.

Nykyisessä työssään hän muun muassa jatkokouluttaa suomeen ja pohjoismaisiin kieliin erikoistuneita, avoimesti saatavilla olevia suuria kielimalleja, joita on luotu onnistuneen tutkimus–yritys-yhteistyön myötä.

Kuka olet?

Olen Aku Rouhe. Väittelin tämän vuoden helmikuussa Aalto-yliopiston puheentunnistuksen tutkimusryhmästä. Väitökirjatyön jälkeen siirryin Silo AI:lle (nykyisin AMD:n omistuksessa), missä työskentelen suurten kielimallien jatkokoulutuksen kanssa, eli siirryin puheesta tekstin pariin. Kiinnostus kieleen värittää myös vapaa-aikaani, jota käytän luovaan kirjoittamiseen.

Mikä on tutkimuksesi aihe?

aiheena oli viime vuosina paljon huomiota saaneiden ns. kokonaismallien ja perinteisempien monen mallin yhdistelmien vertaileminen. Varsinkin puheentunnistuksessa sekä tutkimus että käytännön sovellukset ovat siirtyneet laajalti kokonaismalleihin, mutta työni osoitti, että monen mallin yhdistelmät ovat yhä varteenotettavia ratkaisuja esimerkiksi tunnistustarkkuuden osalta. Kokonaismallien keskeisin etu onkin todennäköisesti niiden yksinkertaisuus.

Kokonaismallit vaativat usein valtavia opetusaineistoja. Siksi oli tärkeää sivuta myös .

Tällä hetkellä työni Silolla liittyy suurten kielimallien jatkokouluttamiseen, ja sovellan esimerkiksi suomeen ja pohjoismaisiin kieliin erikoistuneita , jotka on luotu yhteistyössä Silon ja TurkuNLP-ryhmän välillä.

Miten Kielipankki liittyy tutkimukseesi?

Kokonaismallit janoavat dataa, joten suuret aineistot olivat tarpeen. Olin mukana kokoamassa sekä eduskunnan täysistunnoista kerättyä  että Lahjoita puhetta -projektissa, jossa kansalaisten lahjoituksista syntyi . Pääsin yhdistämään nämä molemmat suuret puheaineistot artikkelissa, joka julkaistiin väitöskirjani loppumetreillä vaikuttaessani . Nykyään suomen puheentunnistusresurssit ovat kunnioitettavat näin harvan puhumalle kielelle.

Viimeaikaisia julkaisuja

Rouhe, A., Grósz, T., Kurimo, M. 2024. . IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 623-638, 2024.

Virkkunen, A., Rouhe, A., Phan, N. et al. 2023. . Lang Resources & Evaluation 57, 1645–1670 (2023).

Moisio, A., Porjazovski, D., Rouhe, A. et al. 2023. . Lang Resources & Evaluation 57, 1295–1327 (2023).

Rouhe, A., Virkkunen, A., Leinonen, J., Kurimo, M. 2022. Proc. Interspeech 2022, 3543–3547.

Aineistoja

Lisätietoa

eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa .