Kielipankissa: Filip Ginter

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Filip Ginter kertoo meille työstään, jota hän on tehnyt TurkuNLP-tutkimusryhmässä.

Tämän haastattelun teksti on käännetty koneellisesti englannista suomeksi kunnianosoituksena kieliteknologian edistykselle.

Kuka olet?

Olen Filip Ginter, ja toimin Turun yliopiston kieliteknologian apulaisprofessorina. Olen tällä hetkellä myös TurkuNLP-tutkimusryhmän pitkäaikaisin jäsen. Olen koulutukseltani tietojenkäsittelytieteilijä, ja nautin syvästi niistä monista ainutlaatuisista haasteista, joita ihmiskieli asettaa.

Mihin tutkimuksesi keskittyy?

Koska minua ei ole siunattu kärsivällisyydellä eikä pitkällä keskittymiskyvyllä, olen vuosien varrella onnistunut paneutumaan melko moniin tutkimusaiheisiin TurkuNLP-ryhmän kanssa. Aloitimme tieteellisen kirjallisuuden louhinnan parissa, mutta sitten siirryimme yleisemmin erilaisten NLP-työkalujen ja -resurssien kehittämiseen. Olen aina pitänyt suomen kielestä ja päätin osallistua erityisesti suomalaisen NLP:n kehittämiseen, ehkäpä antaakseni takaisin yhteiskunnalle, joka niin anteliaasti isännöi minua väitöstutkimukseni aikana. Henkilökohtaisesti tärkein – tai ainakin näkyvin – yritykseni oli Turku Dependency Treebank, josta tuli myöhemmin yksi ensimmäisistä puupankeista supermenestyksekkäässä -aloitteessa ja jonka ansiosta TurkuNLP oli tärkeä jäsen UD-yhteisössä ensimmäisestä päivästä lähtien. Puustopankki oli myös TurkuNLP:n suhteellisen laajalti käyttämien tilastollisten syntaktisten suomen kielen riippuvuusjäsennysten jäsentäjien perustana. Olen ylpeä siitä, että tämä työ auttoi tuomaan suomen kielen ACL-julkaisujen tulostaulukoihin ja kuromaan umpeen kuilua paljon enemmän tutkittuihin kieliin ainakin jäsennystarkkuuden osalta.

Viime aikoina en tietenkään voinut olla hyppäämättä mukaan syväoppimisen tsunamiin. TurkuNLP:n aiempi työ suomalaisen internetin ryömimiseksi ja miljardien suomen kielen sanojen keräämiseksi kannatti, kun siitä tuli keskeinen osa harjoituskorpusta. Jos olet hiljattain tehnyt koneoppimista suomen kielen parissa, on hyvin todennäköistä, että olet käyttänyt tätä mallia saadaksesi muutaman prosentin lisäpisteen tarkkuuteen. FinBERTin tarina kertoo siitä, että kielidataa on paljon valmiina oikealla hetkellä, ja se osoittaa, miten tärkeää on kerätä ja ylläpitää kieliresursseja. Koskaan ei voi tietää, milloin seuraavan kerran tarvitaan muutama miljardi sanaa suomea.

Entä miten tästä eteenpäin? Näen tavoitteenani tuoda suomen kieleen tavalla tai toisella suurin osa niistä työkaluista, tehtävistä ja resursseista, joita isommilla kielillä on. Ajattele kysymysten vastaamista, tiivistämistä, semanttista hakua, parafraasimalleja ja monia muita NLP-tehtäviä, joita ei vielä ole kunnolla katettu suomen kielessä. Jos ne ovat olemassa englannille, niiden pitäisi olla olemassa myös suomelle. Elämme jännittäviä aikoja NLP:ssä, ja nyt meillä on paljon enemmän mahdollisuuksia kuin vielä viisi vuotta sitten. Ja tietysti, kun on nurkan takana, TurkuNLP-työpajalta voi odottaa uusia jännittäviä kielimalleja.

Näiden enemmän tai vähemmän valtavirran NLP-hankkeiden lisäksi minulla on ollut useita, rohkenen sanoa, onnistuneita yhteistyöhankkeita digitaalisten humanististen tieteiden alalla, erityisesti historioitsijoiden kanssa. Nautin näistä hankkeista, koska ne haastoivat meidät ratkaisemaan mielenkiintoisia teknisiä ja algoritmisia ongelmia.

Miten Kielipankki liittyy tutkimukseesi?

Ehkä näkyvin panokseni Kielipankkiin on (toki TurkuNLP:ssä sitä työsti moni meistä), jonka avulla Kielipankki tekee aineistosta helpommin tutkijoiden saatavilla olevaa. Parserin uusin versio tuo mukanaan huomattavan parannuksen tarkkuuteen kaikilla analyysitasoilla. Toivon, että jonain päivänä, kun lainsäädäntö vastaa nykyisiä kieliteknologian tarpeita, myös Internet-parseri ja muut laajamittaiset verkkopohjaiset aineistot voidaan liittää kielipankkiin.

Olemme luonnollisesti käyttäneet Kielipankin resursseja laajasti täällä TurkuNLP:ssä, ehkä eniten , erilaisissa tutkimushankkeissa sekä kielimallien koulutuksessa. Olemme myös hyötyneet valtavasti historiantutkijoiden kanssa tekemässämme työssä.

En voi korostaa, miten tärkeää suomalaiselle NLP:lle on, että me kaikki annamme avoimia tietokokonaisuuksia ja ilmaisia työkaluja ja malleja Kielipankkiin ja myös säilytämme etumatkaamme laskennallisten resurssien suhteen, mistä LUMI on täydellinen esimerkki.

Käännöksen teki:  (ilmaisversio).

Julkaisuja

J. Kanerva & F. Ginter & S. Pyysalo 2020. . Proceedings of the 16th International Conference on Parsing Technologies and the IWPT 2020 Shared Task on Parsing into Enhanced Universal Dependencies.

J. Kanerva & F. Ginter & T. Salakoski 2020. . Natural Language Engineering.

J. Kanerva & F. Ginter & N. Miekka & A. Leino & T. Salakoski 2018. . Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies.

A. Vesanto & A. Nivala & T. Salakoski & H. Salmi & F. Ginter 2017. . Proceedings of the 21st Nordic Conference on Computational Linguistics (NoDaLiDa).

Työkaluja ja korpuksia (käytettävissä Kielipankin kautta)

Lisätietoa

 eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa .