Kuka olet?
Olen Mika Hämäläinen ja työskentelen tutkijatohtorina Helsingin yliopistossa Digitaalisten ihmistieteiden osastolla. Väitöskirjani kirjoitin laskennallisesta luovuudesta vuonna 2020 otsikolla
Mikä on tutkimuksesi aihe?
Olen tehnyt tutkimusta laskennallisen luovuuden, uhanalaisten kielten kieliteknologian sekä ei-standardin kielen kuten murteiden ja historiallisten kielimuotojen parissa. Laskennallinen luovuus on tekoälyn näkökulmasta haastava tutkimusaihe, sillä tarkoituksena on kehittää laskennallisia malleja, jotka kykenevät tuottamaan uusia luovia tekstejä kuten runoja (Hämäläinen & Alnajjar, 2019) tai huumoria (Alnajjar & Hämäläinen, 2021). Tärkeää ei ole ainoastaan se, että kone pystyy syytämään ulos uutta tekstiä, vaan koneen tulisi myös osata tulkita tuotoksiaan jollain järkevällä tasolla. Olemmekin kehittäneet työkaluja myös lopputulosten analysointiin, kuten suomenkielistä runoutta analysoivan
Uhanalaisten kielten kieliteknologia on erittäin haastavaa, sillä moderni kieliteknologia nojaa yhä enemmän massiivisiin tekstiaineistoihin, jollaisia ei ole helposti saatavilla. Uhanalaisten kielten aineistot sisältävät usein myös paljon variaatiota, sillä tällaisten kielten kohdalla ei välttämättä ole harjoitettu kielenhuoltoa ja vaalittu oikeakielisyyttä samalla tavalla kuin vaikkapa suomen osalta. Kielellinen moninaisuus on koneoppimisen näkökulmasta hankalaa, sillä mitä enemmän variaatiota korpus sisältää, sitä suurempi sen tulisi olla kooltaan, jotta koneoppimismallit kykenevät variaatiosta selviytymään. Uhanalaisten kielten kieliteknologia vaatii siis kekseliäisyyttä. Olemme onnistuneet analysoimaan uhanalaisten kielten morfologiaa (Hämäläinen et al., 2021a), morfosyntaksia (Hämäläinen & Wiechetek, 2020) ja kognaatteja (Hämäläinen & Rueter, 2019) tuottamalla koneoppimismalleille synteettistä dataa. Uhanalaisten kielten dataa voi prosessoida helposti kehittämäni
Elinvoimaistenkin kielten kohdalla runsas variaatio tuottaa kieliteknologeille päänvaivaa. Olen tehnyt tutkimusta historiallisen englannin kielimuotojen normalisoinnin parissa (Hämäläinen et al., 2018). Normalisaatio tarkoittaa sitä, että tietokone osaa muuntaa historiallisessa tekstissä käytetyn ortografian nykykielen mukaiseksi. Englannin kielen normalisointityökalu Natas on saatavilla
Miten Kielipankki liittyy tutkimukseesi?
Kielipankin aineistoista on ollut hyötyä myös laskennallisen luovuuden tutkimisessa. Olen käyttänyt esimerkiksi suomenkielistä
Julkaisuja
Alnajjar, K., & Hämäläinen, M. (2021). When a Computer Cracks a Joke: Automated Generation of Humorous Headlines. In Proceedings of the 12th International Conference on Computational Creativity (ICCC 2021) (pp. 292-299). Association for Computational Creativity.
Hämäläinen, M., Alnajjar, K., Partanen, N., & Rueter, J. (2021b). Finnish Dialect Identification: The Effect of Audio and Text. In M-F. Moens, X. Huang, L. Specia, & S. Wen-tau Yih (Eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 8777-8783). The Association for Computational Linguistics.
Hämäläinen, M. (2020)
Alnajjar, K., & Hämäläinen, M. (2019).
Hämäläinen, M., & Alnajjar, K. (2019). Let’s FACE it: Finnish Poetry Generation with Aesthetics and Framing. In K. V. Deemter, C. Lin, & H. Takamura (Eds.), 12th International Conference on Natural Language Generation: Proceedings of the Conference (pp. 290-300). The Association for Computational Linguistics.
Hämäläinen, M., Partanen, N., Rueter, J., & Alnajjar, K. (2021a). Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered. In S. Dobnik, & L. Øvrelid (Eds.), Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa) (pp. 166-177). (NEALT Proceedings Series; No. 45), (Linköping Electronic Conference Proceedings; No. 178). Linköping University Electronic Press.
Hämäläinen, M., & Rueter, J. (2019). Finding Sami Cognates with a Character-Based NMT Approach. In A. Arppe, J. Good, M. Hulden, J. Lachler, A. Palmer, L. Schwartz, & M. Silfverberg (Eds.),
Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020a).
Hämäläinen, M., Partanen, N., Alnajjar, K., Rueter, J., & Poibeau, T. (2020b). Automatic Dialect Adaptation in Finnish and its Effect on Perceived Creativity. In F. A. Cardoso, P. Machado, T. Veale, & J. M. Cunha (Eds.), Proceedings of the 11th International Conference on Computational Creativity (ICCC’20) (pp. 204-211). Association for Computational Creativity.
Hämäläinen, M., & Wiechetek, L. (2020). Morphological Disambiguation of South Sámi with FSTs and Neural Networks. In D. Beermann, L. Besacier, S. Sakti, & C. Soria (Eds.), Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020) (pp. 36-40). European Language Resources Association (ELRA).
Hämäläinen, M., Säily, T., Rueter, J., Tiedemann, J., & Mäkelä, E. (2018).
Hämäläinen, M. (2018). Harnessing NLG to Create Finnish Poetry Automatically. In F. Pachet, A. Jordanous, & C. León (Eds.), Proceedings of the Ninth International Conference on Computational Creativity (pp. 9-15). Association for Computational Creativity (ACC)
Partanen, N., Hämäläinen, M., & Alnajjar, K. (2019). Dialect Text Normalization to Normative Standard Finnish. In W. Xu, A. Ritter, T. Baldwin, & A. Rahimi (Eds.), The Fifth Workshop on Noisy User-generated Text (W-NUT 2019): Proceedings of the Workshop (pp. 141–146). The Association for Computational Linguistics.
Lisätietoa työkaluista ja Kielipankissa olevista aineistoista
-korpus