Kielipankissa: Filip Ginter

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Filip Ginter kertoo meille työstään, jota hän on tehnyt TurkuNLP-tutkimusryhmässä.

Tämän haastattelun teksti on käännetty koneellisesti englannista suomeksi kunnianosoituksena kieliteknologian edistykselle.

Kuka olet?

Olen Filip Ginter, ja toimin Turun yliopiston kieliteknologian apulaisprofessorina. Olen tällä hetkellä myös TurkuNLP-tutkimusryhmän pitkäaikaisin jäsen. Olen koulutukseltani tietojenkäsittelytieteilijä, ja nautin syvästi niistä monista ainutlaatuisista haasteista, joita ihmiskieli asettaa.

Mihin tutkimuksesi keskittyy?

Koska minua ei ole siunattu kärsivällisyydellä eikä pitkällä keskittymiskyvyllä, olen vuosien varrella onnistunut paneutumaan melko moniin tutkimusaiheisiin TurkuNLP-ryhmän kanssa. Aloitimme tieteellisen kirjallisuuden louhinnan parissa, mutta sitten siirryimme yleisemmin erilaisten NLP-työkalujen ja -resurssien kehittämiseen. Olen aina pitänyt suomen kielestä ja päätin osallistua erityisesti suomalaisen NLP:n kehittämiseen, ehkäpä antaakseni takaisin yhteiskunnalle, joka niin anteliaasti isännöi minua väitöstutkimukseni aikana. Henkilökohtaisesti tärkein – tai ainakin näkyvin – yritykseni oli Turku Dependency Treebank, josta tuli myöhemmin yksi ensimmäisistä puupankeista supermenestyksekkäässä Universal Dependencies (UD) -aloitteessa ja jonka ansiosta TurkuNLP oli tärkeä jäsen UD-yhteisössä ensimmäisestä päivästä lähtien. Puustopankki oli myös TurkuNLP:n suhteellisen laajalti käyttämien tilastollisten syntaktisten suomen kielen riippuvuusjäsennysten jäsentäjien perustana. Olen ylpeä siitä, että tämä työ auttoi tuomaan suomen kielen ACL-julkaisujen tulostaulukoihin ja kuromaan umpeen kuilua paljon enemmän tutkittuihin kieliin ainakin jäsennystarkkuuden osalta.

Viime aikoina en tietenkään voinut olla hyppäämättä mukaan syväoppimisen tsunamiin. TurkuNLP:n aiempi työ suomalaisen internetin ryömimiseksi ja miljardien suomen kielen sanojen keräämiseksi kannatti, kun siitä tuli keskeinen osa FinBERT-mallin harjoituskorpusta. Jos olet hiljattain tehnyt koneoppimista suomen kielen parissa, on hyvin todennäköistä, että olet käyttänyt tätä mallia saadaksesi muutaman prosentin lisäpisteen tarkkuuteen. FinBERTin tarina kertoo siitä, että kielidataa on paljon valmiina oikealla hetkellä, ja se osoittaa, miten tärkeää on kerätä ja ylläpitää kieliresursseja. Koskaan ei voi tietää, milloin seuraavan kerran tarvitaan muutama miljardi sanaa suomea.

Entä miten tästä eteenpäin? Näen tavoitteenani tuoda suomen kieleen tavalla tai toisella suurin osa niistä työkaluista, tehtävistä ja resursseista, joita isommilla kielillä on. Ajattele kysymysten vastaamista, tiivistämistä, semanttista hakua, parafraasimalleja ja monia muita NLP-tehtäviä, joita ei vielä ole kunnolla katettu suomen kielessä. Jos ne ovat olemassa englannille, niiden pitäisi olla olemassa myös suomelle. Elämme jännittäviä aikoja NLP:ssä, ja nyt meillä on paljon enemmän mahdollisuuksia kuin vielä viisi vuotta sitten. Ja tietysti, kun LUMI-supertietokone on nurkan takana, TurkuNLP-työpajalta voi odottaa uusia jännittäviä kielimalleja.

Näiden enemmän tai vähemmän valtavirran NLP-hankkeiden lisäksi minulla on ollut useita, rohkenen sanoa, onnistuneita yhteistyöhankkeita digitaalisten humanististen tieteiden alalla, erityisesti historioitsijoiden kanssa. Nautin näistä hankkeista, koska ne haastoivat meidät ratkaisemaan mielenkiintoisia teknisiä ja algoritmisia ongelmia.

Miten Kielipankki liittyy tutkimukseesi?

Ehkä näkyvin panokseni Kielipankkiin on suomen kielen riippuvuusparseri (toki TurkuNLP:ssä sitä työsti moni meistä), jonka avulla Kielipankki tekee aineistosta helpommin tutkijoiden saatavilla olevaa. Parserin uusin versio tuo mukanaan huomattavan parannuksen tarkkuuteen kaikilla analyysitasoilla. Toivon, että jonain päivänä, kun lainsäädäntö vastaa nykyisiä kieliteknologian tarpeita, myös Internet-parseri ja muut laajamittaiset verkkopohjaiset aineistot voidaan liittää kielipankkiin.

Olemme luonnollisesti käyttäneet Kielipankin resursseja laajasti täällä TurkuNLP:ssä, ehkä eniten Suomi24-korpusta, erilaisissa tutkimushankkeissa sekä kielimallien koulutuksessa. Olemme myös hyötyneet valtavasti Kansalliskirjaston sanomalehtien ja aikakauslehtien OCR-korpuksesta historiantutkijoiden kanssa tekemässämme työssä.

En voi korostaa, miten tärkeää suomalaiselle NLP:lle on, että me kaikki annamme avoimia tietokokonaisuuksia ja ilmaisia työkaluja ja malleja Kielipankkiin ja myös säilytämme etumatkaamme laskennallisten resurssien suhteen, mistä LUMI on täydellinen esimerkki.

Käännöksen teki: DeepL Translate (ilmaisversio).

Julkaisuja

J. Kanerva & F. Ginter & S. Pyysalo 2020. Turku Enhanced Parser Pipeline: From Raw Text to Enhanced Graphs in the IWPT 2020 Shared Task. Proceedings of the 16th International Conference on Parsing Technologies and the IWPT 2020 Shared Task on Parsing into Enhanced Universal Dependencies.

J. Kanerva & F. Ginter & T. Salakoski 2020. Universal Lemmatizer: A Sequence to Sequence Model for Lemmatizing Universal Dependencies Treebanks. Natural Language Engineering.

J. Kanerva & F. Ginter & N. Miekka & A. Leino & T. Salakoski 2018. Turku Neural Parser Pipeline: An End-to-End System for the CoNLL 2018 Shared Task. Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies.

A. Vesanto & A. Nivala & T. Salakoski & H. Salmi & F. Ginter 2017. A System for Identifying and Exploring Text Repetition in Large Historical Document Corpora. Proceedings of the 21st Nordic Conference on Computational Linguistics (NoDaLiDa).

Työkaluja ja korpuksia (käytettävissä Kielipankin kautta)

Lisätietoa

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.