Kielipankissa: Tommi Jauhiainen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Parivuotista post doc -kauttaan parhaillaan aloitteleva Kielipankin projektisuunnittelija Tommi Jauhiainen kertoo Kielipankin palveluihin ja aineistoihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Tommi Jauhiainen ja toimin tällä hetkellä Kielipankissa projektisuunnittelijana. Vuodenvaihteessa 2020–21 siirryn post doc -tutkijaksi myöntämällä apurahalla.

Mikä on tutkimuksesi aihe?

Viimeisen hieman yli kymmenen vuoden aikana olen tutkinut erityisesti tekstin kielen automaattista tunnistamista. Kirjoitin aiheesta 2010 ja 2019. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai samankaltaisia menetelmiä voidaan käyttää myös tekstien lajitteluun esimerkiksi aihealueiden suhteen.

Tunnistamisen vaikeustaso vaihtelee hyvin paljon tilanteen mukaan. Tehtävä on helppo, jos valittavina on vain muutamia toisistaan selvästi eroavia kieliä, kuten vaikka suomi ja ruotsi, ja jos tekstit ovat kohtuullisen pitkiä, esimerkiksi useiden virkkeiden mittaisia. Mikäli kieliä on satoja, kielet ovat lähellä toisiaan (esim. kveeni ja meänkieli) ja/tai tekstit ovat lyhyitä (esim. vain yksittäisiä sanoja), niiden tunnistaminen saattaa olla hyvin vaikeaa.

Tekstien kielen automaattisesta tunnistuksesta kirjoittamamme laaja ilmestyi viime vuonna Journal of Artificial Intelligence -lehdessä. Työstämme samasta aiheesta tällä hetkellä myös oppikirjaa, joka julkaistaan Morgan & Claypoolin Synthesis Lectures on Human Language Technologies -sarjassa toivottavasti vuoden 2021 loppupuolella.

Olen osallistunut väitöstutkimukseni aikana ja sen jälkeen useisiin kansainvälisiin kilpailuihin (shared tasks), joissa on keskitytty etenkin lähellä toisiaan olevien kielten tai murteiden erottelemiseen toisistaan. Vuonna 2018 voitimme ja viime vuonna . Olen myös jäsenenä -huippuyksikössä, jossa olen tutkinut, kuinka nuolenpäillä kirjoitetun akkadin ja sumerin eri murteita voisi erotella toisistaan. Järjestin tästä aiheesta viime vuonna kansainvälisen kilpailun, jonka voitti .

Tulevassa Vaikuttavuussäätiön rahoittamassa Language Identification of Speech and Text -hankkeessa siirryn tutkimaan erityisesti puheen kielen tunnistamista tekstin kielen tunnistamisen lisäksi. Puheen ja tekstin kielten tunnistamisen tutkimus on tähän saakka ollut hyvin eriytynyttä, ja tarkoitukseni on saada aikaan enemmän yhteistyötä näiden kahden tutkimusalan välille.

Miten Kielipankki liittyy tutkimukseesi?

Suurin osa väitöstutkimuksestani tehtiin -projektissa, joka toimi Kielipankkia ylläpitävän FIN-CLARIN-tutkimusryhmän osana. Projektissa etsimme internetistä pienillä uralilaisilla kielillä kirjoitettuja verkkosivuja, teimme niistä portaalisivuston ja koostimme niiden sisältämästä tekstistä virkekorpuksia. Keräyksen aikana ja virkekorpuksia luodessa käytimme automaattista kielentunnistusta. Portaalisivusto, , on nyt osana Kielipankin ylläpitämiä työkaluja ja -aineisto löytyy Kielipankista kolmena eri versiona. Wanca 2017 -aineisto on käytössä meneillään olevassa (Uralic Language Identification) kilpailussa, ja aineisto julkaistaan ensi vuoden aikana.

Kielipankkiin liittyviä julkaisuja:

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2015). . In First International Workshop on Computational Linguistics for Uralic Languages: Proceedings of the Workshop (Vol. 2, pp. 87–98). (Septentrio Conference Series; Vol. 2015, No. 2). Septentrio Academic Publishing.

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2015). . In Computational Linguistics and Intelligent Text Processing (Vol. Part I, pp. 633-643). (Lecture Notes in Computer Science; Vol. 9041). Springer International Publishing AG.

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2016). . In Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects: VarDial3, Osaka, Japan, December 12 2016 (pp. 153-162).

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2017). . In 21st Nordic Conference of Computational Linguistics: Proceedings of the Conference (pp. 183-191). (Linkping Electronic Conference Proceedings; No. 31). Linköping University Electronic Press.

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). . In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 66-75). The Association for Computational Linguistics.

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). . In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 254-262). The Association for Computational Linguistics.

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2019). Wanca in Korp: Text corpora for underresourced Uralic languages. In Proceedings of the Research data and humanities (RDHUM) 2019 conference : data, methods and tools (pp. 21-40). (). University of Oulu.

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2019). , 25(5), 561-583. [135132491900038].

Jauhiainen, T. (2019). . University of Helsinki.

Jauhiainen, T., Jauhiainen, H., Alstola, T., & Linden, K. (2019). . In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 89-98). The Association for Computational Linguistics.

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2019). . In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 178-187). The Association for Computational Linguistics.

Jauhiainen, T., Lui, M., Zampieri, M., Baldwin, T., & Lindén, K. (2019). . Journal of Artificial Intelligence Research, 65, 675-782.

Zampieri, M., Malmasi, S., Scherrer, Y., Samardžic, T., Tyers, F., Silfverberg, M. P., Klyueva, N., Pan, T-L., Huang, C-R., Ionescu, R. T., Butnaru, A., & Jauhiainen, T. S. (2019). . In Proceedings of the (pp. 1-16). The Association for Computational Linguistics.

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2020). . In Proceedings of the 12th Web as Corpus Workshop (pp. 23-32). The Association for Computational Linguistics.

Gaman, M., Hovy, D., Ionescu, R. T., Jauhiainen, H., Jauhiainen, T., Linden, K., Ljubešić, N., Partanen, N., Purschke, C., Scherrer, Y., & Zampieri, M. (Accepted/In press). A Report on the VarDial Evaluation Campaign 2020.

Jauhiainen, T., Jauhiainen, H., Partanen, N., & Linden, K. (Accepted/In press). . In Proceedings of VarDial 2020

Lindgren, M., Jauhiainen, T., & Kurimo, M. (2020). . In Proceedings of Interspeech 2020 (pp. 467-471)

eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa .

10.12.2020

Tommi Jauhiainen

Uutinen

Kieli

Jaa tämä uutinen

Uutiskirje