Puheella toimivia tekoälypalveluja tarvitaan myös pienille kielille – tutkijat vauhdittavat yritysten tuotekehitystä

Helsingin yliopiston koordinoima LAREINA-hanke auttaa rakentamaan puheliittymiä suomen, saamen ja suomenruotsin kaltaisille vähän puhutuille kielille. Yritykset voivat hyödyntää työn tuloksia, kun ne ponnistavat kasvaville kieliteknologian markkinoille.
Tästä on kyse
  • Tavoitteena on varmistaa, että puheeseen pohjautuvia laadukkaita tekoälypalveluja ja -tuotteita pystytään tarjoamaan myös pienten kielten puhujille. Sellaisia ei välttämättä synny isojen, globaalien yritysten kehitystyössä. 
  • Hanke kehittää puheen tunnistusta ja puhesynteesiä suomen, suomenruotsin sekä saamen kielille. Niitä testataan esimerkiksi puhelinpalveluissa ja kääntämisessä. Mukana on yrityksiä, julkishallintoa ja myös kumppaneita Norjasta, Ruotsista sekä Virosta. 
  • Tuloksena syntyy kaupallistettavia malleja, joiden pohjalta puheliittymiä voidaan kehittää erilaisille pienille kielille ja murrealueille. Ne auttavat suomalaisia yrityksiä kilpailemaan omilla tekoälyratkaisuillaan kansainvälisillä markkinoilla. 

Chat GPT ja muut tekoälysovellukset yleistyvät vauhdilla. Niitä voidaan hyödyntää esimerkiksi asiakaspalvelussa, terveydenhoidossa ja työn tukena eri aloilla. Edessä on kuitenkin iso murros: tulevaisuudessa tekoälyn kanssa kommunikoidaan yhä useammin puhumalla. Tämä helpottaa sovellusten käyttöä arjessa. 

Onkin tärkeää, että puhekäyttöliittymiä kehitetään myös suomen, saamen ja suomenruotsin kaltaisille pienille kielille. Tämän eteen Helsingin yliopisto ja Aalto-yliopisto työskentelevät kumppaniensa kanssa Business Finlandin rahoittamassa LAREINA-hankkeessa vuosina 2023–2025. 

Tutkijat rakentavat monistettavia malleja, jonka avulla yritykset voivat kehittää puhepohjaisia tekoälysovelluksia. Tämä avaa ovia globaaliin vientiin – esimerkiksi puheentunnistuksen markkinalle ennustetaan jopa 19 prosentin kasvua (sivu on englanniksi) lähivuosina. Mallilla voidaan luoda puheliittymiä maailman pienille kielille ja jopa suurten vientimaiden tarpeisiin. 

– Isoilla kielialueilla on paljon eri murteita. Tekoälyyn pohjautuvien tuotteiden pitää ainakin ymmärtää niitä, vaikka ne vastaisivatkin valtakielellä, kertoo tutkimusjohtaja Krister Lindén digitaalisten ihmistieteiden osastolta. 

Helpotusta lääkäreiden arkeen ja kokousten tulkkaukseen

LAREINA kytkeytyy ohjelmistoyritys Tietoevryn Veturi-hankkeeseen, joka kartoittaa muun muassa tekoälyn mahdollisuuksia terveydenhoidossa. Puhetta ymmärtävä tekoäly voisi helpottaa lääkärin työtä esimerkiksi laatimalla yhteenvedon asiakkaan kanssa käydystä keskustelusta. 

– Silloin jäisi paljon enemmän aikaa potilasvastaanottoon, Lindén kuvailee. 

Tekoäly voisi myös tarjota kokouksiin tulkkauspalveluja, hoitaa työpaikoilla aikaa vievät transkriptiotehtävät ja palvella puhelinvaihteessa asiakkaita. Hankkeen aikana sovelluksia testataankin niin yrityksissä kuin julkisella sektorilla. 

Puheentunnistuksen ja kielimallien kehittämisestä vastaa Aalto-yliopisto, kun taas hanketta koordinoiva Helsingin yliopisto tuo projektiin osaamisensa puhesynteesistä. Sitä tarvitaan, jotta tekoäly voi jutella käyttäjälleen. Tavoite on opettaa tekoäly puhumaan mahdollisimman pienellä aineistolla ja saada aikaan luontevalta kuulostava lopputulos. 

– Tärkeitä asioita virkkeessä saadaan painotettua eri keinoin ja taukoja laitettua sopiviin kohtiin. 

Tekoälyä koulutetaan Kansallisen audiovisuaalisen instituutin ja pohjoismaisten yleisradioiden puhedatalla. Ensimmäinen suomenkielinen versio puheentunnistuksesta ja puhesynteesistä on jo valmis. Vuosina 2024–2025 kehityksen keskiöön nousevat suomenruotsi ja saame. 

Tavoitteena on saada puhekäyttöliittymä aikaiseksi mahdollisimman vähäisellä aineistolla. Siihen löytyy erilaisia menetelmiä. Dataa voidaan kerätä esimerkiksi sukukielistä ja tehdä loppusilaus kohdekielellä.

Krister Lindén, tutkimusjohtaja, Helsingin yliopisto
Yritys tahtoo varmistaa, että sovellukset tuottavat lisäarvoa

Hankkeessa laaditut kielimallit tuodaan kaikkien saataville lisenssillä, joka mahdollistaa kaupallisen käytön. Ne julkaistaan tekoäly-yhteisö Hugging Facessa ja Kielipankissa, jonne kerätään myös dataa jatkotyön tueksi. Avoin julkaiseminen on tärkeää kumppani Tietoevrylle, koska tulokset on siten helppo jakaa eri maaorganisaatioihin ja asiakkaille. 

– Se palvelee myös yhteiskuntaa, koska tämä on julkisin varoin rahoitettu projekti, toteaa yhtiön tutkimus- ja kehitystoimintoja johtava Iftikhar Ahmad

Tietoevry tahtoo varmistaa, että heidän tekoälysovelluksensa tuottavat lisäarvoa ja että yritykselle karttuu toimintansa kannalta tärkeää tietoa. Siinä yliopistoyhteistyöstä on hyötyä. Ahmadin mukaan hankkeen pohjalta voitaisiin kehittää jopa Whisper-tekoälyn kaltainen ratkaisu Pohjoismaihin. 

LAREINAssa rakentuva ekosysteemi ja infrastruktuuri tukevat myös suomalaisten osallistumista EU-projekteihin. Ahmadin mielestä eurooppalaista rahoitusta olisi tärkeää saada kotiutettua lisää, koska se auttaisi synnyttämään vientiä ja kasvua edistäviä verkostoja. 

– Se on valtava mahdollisuus suomalaisille tutkijoille ja yrityksille. 

Puheteknologioiden potentiaali kiinnostaa myös Kansaneläkelaitosta. Kela testaa yliopistojen kanssa, taipuuko tekoäly asiakaspuheluiden litterointiin tai jonotusviestien laatimiseen puhelinpalvelua varten. Kehityspäällikkö Riikka Lindroos-Järvitalon mielestä yhteistyö auttaa todentamaan ratkaisujen toimivuutta ja tarjoaa tukea myös uusien teknologioiden haltuunottoon. 

– Meillä on paljon odotuksia ja toiveita tätä hanketta kohtaan. On todella mahtavaa olla mukana. 

”Kun kielimallit tulevat saataville Hugging Faceen, koko Tietoevryn konserni maailmanlaajuisesti voi hyödyntää niitä."
Oletko kiinnostunut yhteistyöstä Helsingin yliopiston kanssa?

Ota yhteyttä, niin suunnittelemme projektin yksilöllisten tarpeidesi mukaan: business@helsinki.fi 

Yhteistyö pähkinänkuoressa

LAREINA on Business Finlandin rahoittama ja Tietoevryn Veturi-ohjelmaan liittyvä tutkimushanke vuosille 2023–2025. Sen toteuttavat Helsingin yliopisto ja Aalto-yliopisto. Muita kumppaneita ovat Tietoevry Oy, Lingsoft Oy, Kielikone Oy, Inscripta Oy, KAVI, Kela ja Solita Oy. Puheaineistoa tekoälyn kouluttamiseen kerätään muun muassa pohjoismaisilta yleisradioilta. Yhteistyötä tehdään myös Saamelaiskäräjien sekä Norjan, Ruotsin ja Viron yliopistojen kanssa. Tavoite on auttaa yrityksiä kehittämään pienillä kielillä toimivia puheliittymiä tekoälysovelluksiin ja ponnistamaan globaaleille markkinoille. Lisää tietoa projektista täällä.  
 

Lisätietoja yhteistyöstä: 

  • Krister Lindén, tutkimusjohtaja, Helsingin yliopiston digitaalisten ihmistieteiden osasto 
  • Iftikhar Ahmad, tutkimus- ja kehitystoimintojen johtaja, Tietoevry Oy