Kielipankissa: Krista Lagus

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston digitaalisen yhteiskuntatieteen professori Krista Lagus kertoo Suomi 24 -korpusta koskevasta tutkimuksestaan.

Kuka olet?

Olen Krista Lagus, digitaalisen yhteiskuntatieteen professori Helsingin yliopiston valtiotieteellisessä tiedekunnassa, Menetelmäkeskuksessa. Olen myös digitaalisten ihmistieteiden HELDIG-verkostossa mukana.

Mikä on tutkimuksesi aihe?

Tutkin tällä hetkellä Kansakunnan mielenliikkeet -konsortiohankkeessa ihmisten tunneaaltoja, keskustelun tapoja ja keskustelujen aiheita sosiaalisessa mediassa. Erityisesti olemme tutkineet Suomi24-keskusteluja ja pyrkineet löytämään erilaisia, erityisesti yhteiskuntatieteellisesti motivoituneita näkökulmia ja tutkimisen tapoja. Toiveena on, että joistain näistä tutkimisen tavoista voitaisiin ajan myötä kehittää käyttöliittymiä ja työkaluja yhteiskuntatieteilijöille, osana digitaalisia ihmistieteitä. Viimeisin konkreettinen tulos on Lääketutka, joka valottaa ihmisten keskusteluja lääkkeistä, oireista ja omasta terveydestään aivan uudenlaisesta näkökulmasta.

Noin muuten olen tutkinut mm. koneoppimis- ja neuroverkkomenetelmien soveltamista kielen eri osa-alueiden mallintamisessa. Näitä ovat esimerkiksi sanojen morfologisen pilkonnan löytyminen adaptiivisesti, käsitejärjestelmän muovautuminen, sekä aihealueiden mallinnus. Usein näillä on ollut konkreettisia sovelluskohtia, esim. aihealuemallinnusta (toiselta nimeltään topiikkimallinnusta) sovellettiin tiedonhakuun ja eksplorointiin suurista tekstiaineistoista. Taustani on informaatiotekniikassa, josta väittelin vuonna 2000 Teknillisessä korkeakoulussa.

Miten Kielipankki liittyy tutkimukseesi?

Kun tahdoimme julkaista Suomi24-keskustelut kaikkien tutkijoiden saataville, aineiston koko, noin 70 miljoonaa viestiä, oli sekä erityinen haaste että mahdollisuus. Kielipankki ja FIN-CLARIN oli tällöin hankkeellemme luonteva ja riittävän vahva yhteistyökumppani. Yhteistyön ansiosta Allerin omistama Suomi24-keskusteluaineisto onnistuttiin julkaisemaan Kielipankissa Korp-työkalun interaktiivisen hakukäyttöliittymän kautta kaikille kiinnostuneille. Lisäksi aineisto on lisenssoitu kokonaisuudessaan ladattavaksi akateemiseen ei-kaupalliseen tutkimuskäyttöön.

Kansakunnan Mielenliikkeet -hankkeen kuluessa yhteistyö on löytänyt aivan uusiakin muotoja – esimerkiksi tällä hetkellä valmistellaan Lääketutkasta erityistä hieman laajempaa tutkijakäyttöliittymää joka on myös tulossa Kielipankin kautta tarjolle. Se tulee olemaan ensimmäinen toteutuva osa laajempaa Social Sciences Toolbox -visiota – yhteiskuntatieteilijöiden työkalupakkia. Tässä näemme uusia mahdollisuuksia fasilitoida tutkijoiden välistä yhteistyötä laajemmin: kun yleisemmin käyttökelpoisia datakäyttöliittymiä syntyy eri hankkeissa, nekin voisi tuoda muidenkin tutkijoiden tarjolle, osaksi yhteistä ja myös yhteisvoimin synnytettävää työkalupakkia.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.