Katja Saarela väittelee aiheesta Työkyvyttömyysriskin ennustaminen koneoppimisen avulla

FM, DI Katja Saarela väittelee torstaina 22.5.2025 aiheesta Työkyvyttömyysriskin ennustaminen koneoppimisen avulla. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osaston Empirical Software Engineering -ryhmässä tehtävää tutkimusta.

FM, DI Katja Saarela puollustaa väitöskirjaansa "Prediction of Work Disability Risk Using Machine Learning" torstaina 22.5.2025 klo 13 Helsingin yliopiston päärakennuksen salissa Karolina Eskelin (U3032, Fabianinkatu 33, 3. krs). Vastaväittäjänä toimii professori Mark van Gils (Tampereen yliopisto) ja kustoksena professori Jukka K. Nurminen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Katja Saarelan väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Empirical Software Engineering -ryhmässä tehtävää tutkimusta. Väitöskirjatyön ohjaajina ovat toimineet professori Jukka K. Nurminen (Helsingin yliopisto) ja professori Tomi Männistö (Helsingin yliopisto).

Työkyvyttömyysriskin ennustaminen koneoppimisen avulla

Lähes kaikkien OECD-maiden ongelmana on, että liian iso osa väestöstä poistuu työmarkkinoilta sairauden tai vamman vuoksi. Työkyvyttömyys tarkoittaa, että henkilö on kyvytön työskentelemään eläkeikäänsä saakka terveyteen liittyvien seikkojen tai vamman vuoksi. Työkyvyttömyyden aiheuttavat tekijät olisi syytä tunnistaa mahdollisimman varhaisessa vaiheessa, sillä tällöin toimenpiteet ovat sekä tehokkaita että myös edullisia. 

Työkyvyttömyysriskin tunnistamisessa on viisi keskeistä toimijaa: työntekijä, työnantaja, työterveysyritys, työeläkeyhtiö ja yhteiskunta. Kaikkien näiden toimijoiden intressinä on pitää ihminen terveenä ja työkykyisenä mahdollisimman pitkään. Työkyvyttömyysriskin ennustamiseen ei ole juuri olemassa koneoppimiseen perustuvia menetelmiä, vaikka ne olisivat taloudellisia ja tehokkaita potentiaalisten riskitapausten seulomisessa. Tämän vuoksi me kehitimme koneoppimismenetelmän M_Health, joka käyttää työterveysyhtiön tekstimuotoista dataa ja luonnollisen kielen prosessointiin (Natural Language Processing, NLP) pohjautuvia syväoppivia algoritmeja. Menetelmään tarvitaan opetusdataa, jonka lääkärit ovat luokitelleet kahteen tai kolmeen riskiluokkaan. Menetelmää voidaan käyttää työterveyshuollossa apuna potilaiden seulonnassa.

Vertailimme kehittämäämme menetelmää toiseen vastaavaan menetelmään M_Pension. M_Pension käyttää eläkepäätösrekisterin dataa ja erilaisia koneoppimisalgoritmeja, kuten päätöspuita. M_Health ennusti työkyvyttömyysriskin 72 % prosentin tarkkuudella kaksiluokkaisessa mallissa, kun taas M_Pension saavutti 69–78 % tarkkuuden riippuen käytetystä algoritmista. Menetelmien tarkkuus, herkkyys ja spesifisyys on sillä tasolla, että niitä voidaan käyttää asiantuntijoiden tukena. Vastuu päätöksestä pitää olla kuitenkin ihmisellä.

Kun pohditaan tekoälymenetelmän eettisyyttä, keskeisiä kriteereitä on se, ettei tekoäly aiheuta haittaa, vastuuseen liittyvät kysymykset, menetelmän läpinäkyvyys ja selitettävyys, oikeudenmukaisuus ja reiluus sekä ihmisoikeuksien kunnioittaminen. Tarkastelimme työkyvyttömyysriskin ennustamista näiden kriteerien valossa. Kun työkyvyttömyysriskiä ennustetaan koneoppimisen avulla, on ymmärrettävä, miten kone arvion tekee, jotta eri toimijat voivat luottaa menetelmän antamiin arvioihin. Tämän vuoksi on tärkeää, että menetelmät ovat läpinäkyviä ja selitettäviä. Erityisesti syväoppivat koneoppimismenetelmät ovat kuitenkin usein niin kutsuttuja mustia laatikoita, joiden toimintaa ei ymmärretä täysin.

Jotta ymmärtäisimme paremmin menetelmien toimintaa, teimme visualisoinnin molemmista menetelmistä ja pohdimme niiden selitettävyyttä. Yhteenvetona voidaan todeta, että menetelmässä M_Pension käytetyt päätöspuut ovat selitettävyydeltään parempia kuin neuroverkot ja syväoppivat algoritmit, joita käytetään menetelmässä M_Health. Näin siis menetelmä M_Pension on parempi sekä tarkkuudeltaan että selitettävyydeltään. On kuitenkin tärkeää huomata, että menetelmää M_Health voidaan käyttää aiemmin prosessissa, mikä on suuri merkitys, jotta riskitapaukset voidaan havaita mahdollisimman varhaisessa vaiheessa ja tarjota tällöin ennaltaehkäiseviä tukitoimia. On tärkeää kehittää koneoppimismenetelmiä, jotka ovat toisaalta riittävän tarkkoja, herkkiä ja spesifejä mutta myös luotettavia, läpinäkyviä ja selitettäviä, jotta niitä voidaan käyttää päätöksenteon tukena.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston avoimessa julkaisuarkistossa Heldassa osoitteessa http://urn.fi/URN:ISBN:978-952-84-1321-9.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: katja.saarela@helsinki.fi.