Uusilla metodeilla voi analysoida tekstin tunnelatauksia entistä paremmin

Sentimentti- eli tunneanalyysilla tutkitaan erilaisissa teksteissä esiintyviä tunteita. Tutkija Emily Öhman vertailee väitöstutkimuksessaan sentimenttianalyysin eri metodeja ja luo uusia työkaluja sen käyttöön. Hän kehitti olemassa olevien analyysivälineiden luotettavuutta ja mahdollisti niiden käytön suomen kielellä.

Oletko törmännyt kauppojen tai ravintoloiden hymynaamanappeihin, joilla annetaan palautetta? Seurataanko työpaikkasi brändikuvaa somessa? Tämä seuranta on itsessään jo sentimenttianalyysia. Lähes kaikki somedata käy Emily Öhmanin mukaan läpi sentimenttianalyysin.

– Olen soveltanut sentimenttianalyysin työkaluja vihapuheen tunnistamiseen, kaunokirjallisuuden tunnemaailman analysoimiseen sekä poliittisten puolueiden retoriikan tutkimiseen.

Tunnesanalistat ovat edullinen metodi

Kieliteknologiassa sentimenttianalyysia kehitetään lähinnä koneoppimisen tarkoituksiin, mikä on kuitenkin muiden alojen näkökulmasta kallista ja vaivalloista. Luotettavia tuloksia voidaan saavuttaa edullisemmin tunnesanalistojen avulla. Se on yksinkertaisempi metodi, joka avaa monille aloille mahdollisuuksia toteuttaa sentimenttianalyysia.

– Tunnesanalista on yksinkertaisimmillaan lista sanoja, jotka on yhdistetty tiettyyn tunteeseen. Sanat on kerätty esimerkiksi sanakirjoista. Tunnesanalista voi kuvastaa tunnetta, joka yhdistetään tiettyyn sanaan, tai sanan herättämiä tunteita. Esimerkiksi sana ”murhata” voi olla tunnesanalistassa yhdistetty sentimenttiin ”negatiivinen” ja tunteisiin ”viha”, ”pelko” ja ”suru”. Tutkija voi laskea, montako tiettyä tunnetta edustavaa sanaa tietystä tekstistä löytyy.

Osana tutkimustaan Öhman on luonut suomenkielisen tunnesanalistan ja tunneluokitellun datasetin 42 kielelle. Datasettiä käytetään opettamaan koneoppimismallille, minkälaisissa konteksteissa eri tunteita esiintyy.

Tunne auttaa analysoimaan tekstiä

Öhman kertoo, että kielestä toiseen käännettäessä tunteet säilyvät teksteissä eri tavoin.

– Tämä havainto voi auttaa sekä kääntäjiä että konekääntämisen kehittäjiä. Tutkimuksessani kävi ilmi, että englannista suomeen ja ranskaan käännettäessä sana ”ilo” säilyy parhaiten, mutta italiaan käännettäessä taas ”suru”. Kaikissa kielissä sana ”yllätys” säilyy huonoiten, koska se on tunteena muutenkin vaikea tunnistaa tekstissä, ja se voi olla sekä positiivinen, negatiivinen että neutraali.

Yrityksissä sentimenttianalyysia on jo pitkään käytetty oman brändin seuraamiseen somessa.

– Tämä on mahdollistanut nopeankin reagoinnin ongelmatapauksissa. Nyt tämä on entistä helpompaa tehdä suomenkieliselle tekstille.

Öhmanin laatimia aineistoja voi hyödyntää myös esimerkiksi silloin, kun tutkitaan, miten mediassa keskustellaan eri puolueista. Aineiston avulla voi käydä läpi kymmeniä vuosia artikkeleita tai somekeskusteluja ja tarkastella, mitä tunteita tutkittavaan asiaan yhdistetään tai mitä tunteita siitä keskusteltaessa ilmaistaan.

– Tutkimukseni osoittaa, että vihapuheviestit sisältävät enemmän tunnesanoja, myös positiivisia, kuin ne viestit, joissa ei ole vihapuhetta. Tämä tieto auttaa kehittämään tarkempia automaattisia moderaattoreita somealustoille.

Lisätietoa väitöksestä

MA Emily Öhman väittelee 5.3.2021 kello 16 Helsingin yliopiston humanistisessa tiedekunnassa aiheesta "The Language of Emotions - Building and Applying Computational Methods for Emotion Detection for English and Beyond". Väitöstilaisuus järjestetään Zoomissa.

Vastaväittäjänä on Associate Professor Cecilia Ovesdotter Alm, Rochester Institute of Technology, ja kustoksena on professori Jörg Tiedemann.

Väitöskirja on myös elektroninen julkaisu ja luettavissa Heldassa.

Live stream

Live stream passcode: 715021

Väittelijän yhteystiedot

FM Emily Öhman

emily.ohman@helsinki.fi