Kielipankissa: Sampo Pyysalo

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sampo Pyysalo kertoo meille luonnollisen kielen käsittelyyn liittyvästä tutkimuksestaan. Avoimesti saatavilla olevat suuret kielimallit ovat välttämättömiä, jotta myös suomen kaltaisille

Kuka olet?

Olen Sampo Pyysalo, yliopistotutkija Turun yliopiston TurkuNLP-ryhmässä.

Mikä on tutkimuksesi aihe?

Tutkin luonnollisen kielen käsittelyn koneoppimismenetelmiä, ja keskityn erityisesti suomenkielisen tekstin käsittelyyn sekä biolääketieteen alan tieteellisen kirjallisuuden analysointiin. Viimeisimmät työni ovat liittyneet suurten neuroverkkopohjaisten kielimallien kouluttamiseen. Tällaisiin lukeutuvat yleiset ”perusmallit”, kuten FinBERT ja FinGPT, sekä tehtäväkohtaiset mallit, kuten nimettyjen entiteettien tunnistusmalli (Fin-NER) suomen kielelle. Työskentelen myös datan parissa. Koostan raakatekstiaineistoja perusmallien valvomatonta opettamista varten sekä pyöritän käsinannotointihankkeita Turku NER– ja TurkuONE-korpusten kaltaisten aineistojen tuottamiseksi, sillä niitä tarvitaan perusmallien valvottuun opettamiseen.

Suuria neuroverkkopohjaisia kielimalleja käytetään nykyaikaisessa luonnollisen kielen käsittelyssä hyvin laajasti ja niihin perustuvat myös ChatGPT:n kaltaiset työkalut. Useimmat tällaiset mallit kuitenkin keskittyvät englannin kieleen, eivätkä monet parhaista kielimalleista ole julkisesti saatavilla. Uskomme, että FinBERTin ja FinGPT:n tyyppiset avoimesti saatavilla olevat suomenkieliset mallit ovat välttämättömiä, jotta suomen kielelle voidaan rakentaa yhtä kyvykkäitä työkaluja kuin englannin kielelle.

Miten Kielipankki liittyy tutkimukseesi?

Suurten kielimallien luomiseen alusta alkaen tarvitaan miljardeja sanoja tekstiä, eikä tämän kokoisia suomen kielen kokoelmia ole helposti saatavilla. Jotta olemme saaneet koottua riittävän suuria korpuksia kielimallien koulutusta varten, olemme hyödyntäneet monenlaisia lähteitä, ml. verkkosivujen haravointia ja Kielipankin kautta saatavilla olevia aineistoja, kuten Ylen ja STT:n uutisarkistoja sekä Suomi24-korpusta. TurkuNLP:n luomia aineistoja jaamme muiden kanavien ohella myös Kielipankin kautta.

Toivoaksemme voimme jo lähitulevaisuudessa tarjota tutkijoille Kielipankin kautta pääsyn niihin kokotekstiaineistoihin, joita olemme kielimallien luomisessa käyttäneet. Näin tutkimustyömme toistettavuus paranee ja suomen kielen mallien luominen helpottuu.

Julkaisuja

J. Luoma & LH. Chang & F. Ginter & S. Pyysalo. 2021. Fine-grained Named Entity Annotation for Finnish. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), pages 135–144, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden.

A. Virtanen & J. Kanerva & R. Ilo & J. Luoma & J. Luotolahti & T. Salakoski & F. Ginter & S. Pyysalo. 2019. Multilingual is not enough: BERT for Finnish. In CoRR, abs/1912.07076.

Aineistoja

Lisätietoa

  • TurkuNLP group of the University of Turku
  • FinBERT, TurkuNLP-ryhmän kehittämä suomenkielinen versio Googlen syväoppivasta BERT-tekoälymallista
  • FinGPT, GPT-3:n kaltaisia generatiivisia suomen kielen malleja
  • Finnish NER, suomenkielisten nimettyjen entiteettien tunnistin (Named Entity Recognizer), joka pohjautuu FinBERTiin sekä UD_Finnish-TDT-puupankkiin lisättyyn nimettyjen entiteettien annotaatiokerrokseen

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.