Kielipankissa: Sampo Pyysalo

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sampo Pyysalo kertoo meille luonnollisen kielen käsittelyyn liittyvästä tutkimuksestaan. Avoimesti saatavilla olevat suuret kielimallit ovat välttämättömiä, jotta myös suomen kaltaisille

Kuka olet?

Olen Sampo Pyysalo, yliopistotutkija Turun yliopiston .

Mikä on tutkimuksesi aihe?

Tutkin luonnollisen kielen käsittelyn koneoppimismenetelmiä, ja keskityn erityisesti suomenkielisen tekstin käsittelyyn sekä biolääketieteen alan tieteellisen kirjallisuuden analysointiin. Viimeisimmät työni ovat liittyneet suurten neuroverkkopohjaisten kielimallien kouluttamiseen. Tällaisiin lukeutuvat yleiset ”perusmallit”, kuten ja , sekä tehtäväkohtaiset mallit, kuten nimettyjen entiteettien tunnistusmalli () suomen kielelle. Työskentelen myös datan parissa. Koostan raakatekstiaineistoja perusmallien valvomatonta opettamista varten sekä pyöritän käsinannotointihankkeita – ja -korpusten kaltaisten aineistojen tuottamiseksi, sillä niitä tarvitaan perusmallien valvottuun opettamiseen.

Suuria neuroverkkopohjaisia kielimalleja käytetään nykyaikaisessa luonnollisen kielen käsittelyssä hyvin laajasti ja niihin perustuvat myös kaltaiset työkalut. Useimmat tällaiset mallit kuitenkin keskittyvät englannin kieleen, eivätkä monet parhaista kielimalleista ole julkisesti saatavilla. Uskomme, että FinBERTin ja FinGPT:n tyyppiset avoimesti saatavilla olevat suomenkieliset mallit ovat välttämättömiä, jotta suomen kielelle voidaan rakentaa yhtä kyvykkäitä työkaluja kuin englannin kielelle.

Miten Kielipankki liittyy tutkimukseesi?

Suurten kielimallien luomiseen alusta alkaen tarvitaan miljardeja sanoja tekstiä, eikä tämän kokoisia suomen kielen kokoelmia ole helposti saatavilla. Jotta olemme saaneet koottua riittävän suuria korpuksia kielimallien koulutusta varten, olemme hyödyntäneet monenlaisia lähteitä, ml. verkkosivujen haravointia ja Kielipankin kautta saatavilla olevia aineistoja, kuten ja sekä . TurkuNLP:n luomia aineistoja jaamme muiden kanavien ohella myös Kielipankin kautta.

Toivoaksemme voimme jo lähitulevaisuudessa tarjota tutkijoille Kielipankin kautta pääsyn niihin kokotekstiaineistoihin, joita olemme kielimallien luomisessa käyttäneet. Näin tutkimustyömme toistettavuus paranee ja suomen kielen mallien luominen helpottuu.

Julkaisuja

J. Luoma & LH. Chang & F. Ginter & S. Pyysalo. 2021. . In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), pages 135–144, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden.

A. Virtanen & J. Kanerva & R. Ilo & J. Luoma & J. Luotolahti & T. Salakoski & F. Ginter & S. Pyysalo. 2019. . In CoRR, abs/1912.07076.

Aineistoja

  • (aineisto saatavilla GitHubissa)
  • (aineisto saatavilla GitHubissa)
  • -aineistoryhmä Kielipankissa
  • -aineistoryhmä Kielipankissa
  • -aineistoryhmä Kielipankissa

Lisätietoa

  • , TurkuNLP-ryhmän kehittämä suomenkielinen versio Googlen syväoppivasta BERT-tekoälymallista
  • , GPT-3:n kaltaisia generatiivisia suomen kielen malleja
  • , suomenkielisten nimettyjen entiteettien tunnistin (Named Entity Recognizer), joka pohjautuu FinBERTiin sekä UD_Finnish-TDT-puupankkiin lisättyyn nimettyjen entiteettien annotaatiokerrokseen

 eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa .