Nykyisessä työssään hän muun muassa jatkokouluttaa suomeen ja pohjoismaisiin kieliin erikoistuneita, avoimesti saatavilla olevia suuria kielimalleja, joita on luotu onnistuneen tutkimus–yritys-yhteistyön myötä.
Kuka olet?
Olen Aku Rouhe. Väittelin tämän vuoden helmikuussa Aalto-yliopiston puheentunnistuksen tutkimusryhmästä. Väitökirjatyön jälkeen siirryin Silo AI:lle (nykyisin AMD:n omistuksessa), missä työskentelen suurten kielimallien jatkokoulutuksen kanssa, eli siirryin puheesta tekstin pariin. Kiinnostus kieleen värittää myös vapaa-aikaani, jota käytän luovaan kirjoittamiseen.
Mikä on tutkimuksesi aihe?
Väitöskirjani aiheena oli viime vuosina paljon huomiota saaneiden ns. kokonaismallien ja perinteisempien monen mallin yhdistelmien vertaileminen. Varsinkin puheentunnistuksessa sekä tutkimus että käytännön sovellukset ovat siirtyneet laajalti kokonaismalleihin, mutta työni osoitti, että monen mallin yhdistelmät ovat yhä varteenotettavia ratkaisuja esimerkiksi tunnistustarkkuuden osalta. Kokonaismallien keskeisin etu onkin todennäköisesti niiden yksinkertaisuus.
Kokonaismallit vaativat usein valtavia opetusaineistoja. Siksi oli tärkeää sivuta myös kokonaismallien soveltamista aliresursoiduilla kielillä.
Tällä hetkellä työni Silolla liittyy suurten kielimallien jatkokouluttamiseen, ja sovellan esimerkiksi suomeen ja pohjoismaisiin kieliin erikoistuneita Poro ja Viking -malleja, jotka on luotu yhteistyössä Silon ja TurkuNLP-ryhmän välillä.
Miten Kielipankki liittyy tutkimukseesi?
Kokonaismallit janoavat dataa, joten suuret aineistot olivat tarpeen. Olin mukana kokoamassa sekä eduskunnan täysistunnoista kerättyä Aalto Finnish Parliament ASR Corpus 2008–2020 puheaineistoa että Lahjoita puhetta -projektissa, jossa kansalaisten lahjoituksista syntyi Puhelahjat-korpus. Pääsin yhdistämään nämä molemmat suuret puheaineistot artikkelissa, joka julkaistiin väitöskirjani loppumetreillä vaikuttaessani LAREINA-projektissa. Nykyään suomen puheentunnistusresurssit ovat kunnioitettavat näin harvan puhumalle kielelle.
Viimeaikaisia julkaisuja
Rouhe, A., Grósz, T., Kurimo, M. 2024. Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-Hour Scale. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 623-638, 2024.
Virkkunen, A., Rouhe, A., Phan, N. et al. 2023. Finnish parliament ASR corpus. Lang Resources & Evaluation 57, 1645–1670 (2023).
Moisio, A., Porjazovski, D., Rouhe, A. et al. 2023. Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Lang Resources & Evaluation 57, 1295–1327 (2023).
Rouhe, A., Virkkunen, A., Leinonen, J., Kurimo, M. 2022. Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. Proc. Interspeech 2022, 3543–3547.
Aineistoja
- Aalto Finnish Parliament ASR Corpus 2008–2020
- Lahjoita puhetta -aineistot (puhelahjat) tutkimuskäyttöön
Lisätietoa
- Aalto-yliopiston puheentunnistusryhmä
- LAREINA – Language Resource Infrastructure for AI (2023–25)
- Lahjoita puhetta -kampanja (2020–24)
- Poro- ja Viking-kielimallit (Hugging Face)
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.