Lidia Pivovarova väittelee aiheesta Luokittelu ja klusterointi median monitoroinnissa

M.Sc. Lidia Pivovarova väittelee perjantaina 21.12.2018 klo 12 aiheesta Luokittelu ja klusterointi median monitoroinnissa: tietämystekniikasta syväoppimiseen. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Computational Linguistics -ryhmässä tehtävää tutkimusta.

M.Sc. Lidia Pivovarova väittelee perjantaina 21.12.2018 klo 12 Helsingin yliopiston Exactum-rakennuksen salissa D122 (Pietari Kalmin katu 5, 1. kerros) aiheesta Classification and Clustering in Media Monitoring: from Knowledge Engineering to Deep Learning. Lidia Pivovarovan ohjaajana on toiminut yliopistotutkija Roman Yangarber (Helsingin yliopisto). Vastaväittäjänä toimii professori Heng Ji (Rensselaer Polytechnic Institute, Yhdysvallat) ja kustoksena professori Jyrki Kivinen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Luokittelu ja klusterointi median monitoroinnissa: tietämystekniikasta syväoppimiseen

Tämä väitöskirja käsittelee sitä, kuinka taloutta kuvaavista uutisartikkeleista voidaan eristää tietoja, joita voidaan käyttää liiketoimintaan liittyvän päätöksenteon tukena. Uutisartikkelit ovat liike-elämän päättäjille tärkeitä tiedonlähteitä, joka kuvastavat sijoittajien odotuksia ja vaikuttavat yritysten maineeseen. Koska erilaisia uutislähteitä on valtava määrä, on uutisartikkelien hallintaan kuitenkin täytynyt kehittää erilaisia tekstitiedon louhinta-algoritmeja, joilla voidaan kerätä uutisartikkeleista kaikkein tärkeimmät tiedot ja esittää ne käyttäjälle tiivistetyssä muodossa.

Väitöskirjassa esitellään median monitorointijärjestelmä PULS sekä kuvataan, kuinka uutisartikkelien analysointiin tässä järjestelmässä käytetään kolmea erilaista tiedonlouhintamenetelmää eli dokumenttien klusterointia, moniluokkaista uutisartikkelien luokittelua ja tekstin polaarisuuden havainnointia. Kaikki väitöskirjassa esitetyt louhintamenetelmät käyttävät syötteenään PULS-järjestelmän tiedon eristämisvaiheessa prosessoituja tekstejä, jossa alkuperäisistä teksteistä on etsitty niihin liittyvät erilaiset nimientiteetit ja muut alemman tason entiteetit. Väitöskirjassa osoitetaan, että lähes jokaisessa median monitorointiin liittyvässä tehtävässä on hyötyä näiden nimientiteettien käyttämisestä.

PULS-järjestelmän tiedon eristämisvaiheessa siis tuotetaan piirteitä, joita järjestelmän  koneoppimisvaiheen eri komponentit sitten hyödyntävät. Tässä väitöskirjassa tutustutaan useisiin tällaisiin komponentteihin, joissa käytetään sekä ohjattuja että ohjaamattomia oppimismenetelmiä samoin kuin kehittyneitä syväoppimismalleja. Väitöskirjassa myös osoitetaan, kuinka tällaista kaksivaiheista arkkitehtuuria voidaan käyttää tuhansien uutisartikkelien reaaliaikaiseen prosessointiin, kun tavoitteena on tarjota loppukäyttäjälle syvällinen ymmärrys kyseisen aihealueen tapahtumista.

Väitöskirjan saatavuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-4701-1.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: lidia.pivovarova@cs.helsinki.fi.