Kuka olet?
Olen Dejan Porjazovski. Tulin Suomeen vuonna 2018 opiskelemaan Aalto-yliopiston maisteriohjelmaan Machine Learning, Data Science, and Artificial Intelligence. Kiinnostukseni kieliteknologiaa kohtaan sai minut liittymään , ensin kesäharjoittelijana ja sen jälkeen maisterintyötä tekemään ja tohtorikoulutettavaksi. Väittelin tohtoriksi toukokuussa 2025.
Valmistumiseni jälkeen siirryin koneoppimisinsinööriksi Aivot Labiin, jossa työskentelen puheesta-tekstiksi- ja tekstistä-puheeksi-järjestelmien sekä suurten kielimallien parissa rakentaakseni suomen kielellä keskustelevia tekoälyavustajia terveydenhuollon alalle.
Mikä on tutkimuksesi aihe?
käsitteli automaattista puhutun kielen ymmärtämistä. Keskityin tutkimuksessani kieliin, jotka ovat matalasti resursoituja eli niille on tarjolla kieliaineistoja ja kieliteknologista tukea vain vähänlaisesti. Puhutun kielen ymmärtäminen (eng. spoken language understanding, SLU) on kattotermi, joka kattaa erilaiset puhe- ja kieliteknologiat, joiden avulla tietokoneet voivat ymmärtää ihmisen puhetta.
Tarkastelin väitöstutkimuksessani sekä sitä, miten datamäärä vaikuttaa menetelmien suorituskykyyn. Pyrin myös selvittämään, onko eri menetelmillä kieliriippumattomia ominaisuuksia, mikä on erittäin tärkeää varsinkin kielille, joille on tarjolla kieliteknologisia resursseja vain vähän.
Lisäksi vertasin kahta paradigmaa, joiden pohjalta voi rakentaa puhutun kielen ymmärtämisen järjestelmiä: modulaarista mallia ja end-to-end-mallia (E2E). E2E-mallit vaativat suuren määrän dataa tehtävän oppimiseen. Modulaariset järjestelmät ovat datatehokkaampia, mutta ne ovat myös monimutkaisempia. Nämä asiat selvisivät, kun vertailin E2E- ja modulaarisia järjestelmiä erilaisissa puhutun kielen ymmärtämisen tehtävissä, kuten nimettyjen entiteettien tunnistamisessa (eng. named entity recognition, NER) ja puheenaiheiden tunnistamisessa, keskittyen pääasiassa suomeen, mutta myös muihin kieliin.
Tutkimukseni viimeinen osa-alue liittyy. Kun vuorovaikutukselliset handsfree-laitteet yleistyvät, on tärkeää, että niiden järjestelmät toimivat luotettavasti. Tämä korostuu etenkin tilanteissa, joissa järjestelmät kohtaavat dataa, jota ne eivät ole kohdanneet aiemmin koulutusvaiheensa aikana.
Miten Kielipankki liittyy tutkimukseesi?
Käytin tutkimukseni aikana kehittääkseni modulaarisia ja E2E-menetelmillä rakennettuja NER-malleja puhutulle suomen kielelle.
Osallistuin myös -aineiston koostamiseen. Aineisto sisältää yli 3000 tuntia puhetta, johon on kerätty erilaisia metatietoja puhujista, kuten ikä, sukupuoli ja puheenaihe. Kehitin aineiston avulla spontaanisti puhutulle suomelle järjestelmän, jolla voi tunnistaa puheenaiheen sekä malleja, joilla voi poimia puheesta metatietoja. Tätä tutkimusta tein ollessani mukana .
Julkaisuja
Porjazovski, D., Grósz, T., & Kurimo, M. (2024). . IEEE/ACM Transactions on Audio, Speech, and Language Processing.
Porjazovski, D., Grósz, T., & Kurimo, M. (2023, September). . In 2023 31st European Signal Processing Conference (EUSIPCO) (pp. 396-400). IEEE.
Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., … & Kurimo, M. (2023). . Language Resources and Evaluation, 57(3), 1295-1327.
Porjazovski, D., Leinonen, J., & Kurimo, M. (2021, August). . In International Conference on Text, Speech, and Dialogue (pp. 469-480). Cham: Springer International Publishing.
Porjazovski, D., Leinonen, J., & Kurimo, M. (2020, October). . In Proceedings of the 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery (pp. 25-29).
Aineistoja
Linkkejä
eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa .