Kuka olet?
Olen Sampo Pyysalo, yliopistotutkija Turun yliopiston
Mikä on tutkimuksesi aihe?
Tutkin luonnollisen kielen käsittelyn koneoppimismenetelmiä, ja keskityn erityisesti suomenkielisen tekstin käsittelyyn sekä biolääketieteen alan tieteellisen kirjallisuuden analysointiin. Viimeisimmät työni ovat liittyneet suurten neuroverkkopohjaisten kielimallien kouluttamiseen. Tällaisiin lukeutuvat yleiset ”perusmallit”, kuten
Suuria neuroverkkopohjaisia kielimalleja käytetään nykyaikaisessa luonnollisen kielen käsittelyssä hyvin laajasti ja niihin perustuvat myös
Miten Kielipankki liittyy tutkimukseesi?
Suurten kielimallien luomiseen alusta alkaen tarvitaan miljardeja sanoja tekstiä, eikä tämän kokoisia suomen kielen kokoelmia ole helposti saatavilla. Jotta olemme saaneet koottua riittävän suuria korpuksia kielimallien koulutusta varten, olemme hyödyntäneet monenlaisia lähteitä, ml. verkkosivujen haravointia ja Kielipankin kautta saatavilla olevia aineistoja, kuten
Toivoaksemme voimme jo lähitulevaisuudessa tarjota tutkijoille Kielipankin kautta pääsyn niihin kokotekstiaineistoihin, joita olemme kielimallien luomisessa käyttäneet. Näin tutkimustyömme toistettavuus paranee ja suomen kielen mallien luominen helpottuu.
Julkaisuja
J. Luoma & LH. Chang & F. Ginter & S. Pyysalo. 2021.
A. Virtanen & J. Kanerva & R. Ilo & J. Luoma & J. Luotolahti & T. Salakoski & F. Ginter & S. Pyysalo. 2019.
Aineistoja
(aineisto saatavilla GitHubissa) (aineisto saatavilla GitHubissa) -aineistoryhmä Kielipankissa -aineistoryhmä Kielipankissa -aineistoryhmä Kielipankissa
Lisätietoa
, TurkuNLP-ryhmän kehittämä suomenkielinen versio Googlen syväoppivasta BERT-tekoälymallista , GPT-3:n kaltaisia generatiivisia suomen kielen malleja , suomenkielisten nimettyjen entiteettien tunnistin (Named Entity Recognizer), joka pohjautuu FinBERTiin sekä UD_Finnish-TDT-puupankkiin lisättyyn nimettyjen entiteettien annotaatiokerrokseen