Monille meistä ovat tuttuja Google Translate, matkailuun tarkoitetut kännykän kielenkäännössovellukset sekä erilaiset laitteiden tai tavaroiden käyttöohjeet. Niissä on hyödynnetty konekäännöstä.
Myös ammattilaiskääntäjät käyttävät konetta apuvälineenä. Koneen kouluttaminen kääntämään tiettyä kieliparia vaatii miljoonia virkkeitä tai miljardeja sanoja tekstiä. Helsingin yliopiston tutkijatohtori Maarit Koponen tutkii, millaiset koneen tekemät virheet aiheuttavat väärinkäsityksiä ja miten ne voitaisiin tunnistaa.
Konekäännin on algoritmeja
Konekääntämisen taustalla olevia oppimisalgoritmeja kutsutaan tekoälyksi, mutta kone ei ole älykäs samalla tavalla kuin ihminen tai tieteiselokuvien supertekoälyt.
– Käännösjärjestelmä käsittelee merkkijonoja, Maarit Koponen kertoo.
Erilaisia järjestelmiä on paljon, mutta kaikkien taustalla oleva algoritmi on samantyyppinen. Nyt pinnalla konekäännöstutkimuksessa on neuroverkko (neural network), järjestelmä, jossa on tietynlaisia oppimisalgoritmeja monessa tasossa. Järjestelmään syötetään tekstiä, jonka algoritmi muuttaa numeeriseen muotoon. Näin se oppii sanojen käyttöyhteyksiä.
– Neuroverkkojärjestelmillä on päästy yllättävän hyviin tuloksiin: konekäännöksen laatu on parantunut muutamassa vuodessa huimasti.
Pienet kielet saadaan konekäännöksen piiriin heikommin kuin suuret: jos kieliparista toinen on englanti, laatu on yleensä parempi, koska englanninkielistä materiaalia koneen opettamiseen on niin paljon.
Eniten on Maarit Koposen mukaan kehitetty kirjoitetun tekstin kääntämistä koneen avulla. Samaa tekniikkaa voidaan kuitenkin soveltaa myös puheen kääntämiseen. Silloin kuvaan astuu puheentunnistus. Ensin puhe muunnetaan tekstiksi, sitten teksti käännetään ja lopuksi vielä muunnetaan takaisin puheeksi.
Entä kuvallinen kerronta, voisiko sitä konekääntää? Projektissa, jossa Koponen työskentelee, tutkitaan juuri tätä.
– Tavoitteena on saada konekääntämisen piiriin myös visuaalinen informaatio, liike ja tarina: Ensin kone tuottaisi videon sisällöstä sanallisen kuvailun, joka on esitetty tarinan muodossa. Sitten tämä kuvailu voitaisiin konekääntää eri kielille. Siinä riittää haastetta.
Käännöskone on apuväline
Konekääntämisen hyödyissä on Maarit Koposen mukaan kaksi päänäkökulmaa: ammattikääntäminen ja saavutettavuuden lisääminen.
– Suomessa ammattikääntäjät käyttävät konekäännöstä vähän, koska suomeen kääntävät koneet eivät ole olleet kovin hyvälaatuisia. Maailmalla tämä työtapa kuitenkin on jo vakiintunut ja myös meillä nousussa. Konekäännös tehostaa työntekoa: jos sen tekemä versio on niin hyvä, että korjaamalla saadaan valmista tekstiä, sitä voidaan käyttää pohjana. Näin käännöksiä voidaan tehdä nopeammin ja enemmän.
Konekäännös on omiaan helpottamaan saavutettavuutta ja tiedonhakua internetistä: verkon tietomääriä ei ole käsitteleminen ihmisvoimin.
– Vaikka koneen tekemä käännös olisi virheellinenkin, se tarjoaa silti tietoa niille ihmisille, joilla ei muuten olisi siihen pääsyä esimerkiksi kielimuurin takia, Maarit Koponen huomauttaa.
Konekäännös on omiaan helpottamaan saavutettavuutta ja tiedonhakua internetistä.
Koposen tämänhetkisen tutkimusprojektin kumppania Yleisradiota kiinnostaa se, miten ohjelmia voisi konekäännöksen avulla tarjota niidenkin ihmisten saataville, jotka eivät ymmärrä suomea tai ruotsia. Valtionhallinnolle olisi tärkeää myös suomi–ruotsi–suomi-käännösten helpompi tuottaminen. Koneen kouluttamiseen tarvittaisiin kuitenkin lisää digitoitua materiaalia tästä kieliparista.
Kaikkia tekstilajeja ei kannata konekääntää
Kaikkiin tekstityyppeihin konekääntäminen ei sovellu, koska teksteillä on erilaisia funktioita.
– Kyllähän kone periaatteessa voi kääntää mitä tahansa, mutta ei siinä välttämättä ole järkeä, Maarit Koponen toteaa.
Konekäännin on parhaimmillaan asiatekstin käsittelyssä. Se pärjää lyhyiden virkkeiden, suoraviivaisen kielen ja yksiselitteisen terminologian kanssa. Kaunokirjallisuuden klassikoita on kokeiltu ajaa konekääntimen läpi. Tulokset eivät Koposen mukaan olleet hyviä.
Konekäännin on parhaimmillaan asiatekstin käsittelyssä.
– Kaunokirjallisuudesta ei haeta informaatiosisältöä vaan esteettisiä arvoja ja tunnelmaa. Kirjallisuus kuvailee ja kertoo rivien välissä. Konekäännin osaa käsitellä vain sanoja eikä ymmärrä laajempia yhteyksiä ja piilotettuja merkityksiä.
Toinen tekstilaji, jota ei voi pinnallisesti kääntää pelkästään sanoina, ovat mainokset. Uutta markkina-aluetta tavoitellessa on mietittävä tarkemmin sitä, mitä mainostetaan ja miten, mitä kulttuurisia merkityksiä mainos saa ja miten kohdeyleisöä puhutellaan.
Kone keksi kierulevän
Hyvin toimiva käännöskone voi pärjätä kääntäjänä ihmiselle, jos kriteerinä pidetään esimerkiksi yhdenmukaisuutta. Terminologia pysyy yhtenäisenä siinä missä ihmisen käännös voisi olla vaihtelevampi. Mutta Maarit Koposen mukaan kone ei vielä toimi näin.
– Se ei myöskään välttämättä osaa käsitellä kirjoitusvirheitä tai tuntemattomia sanoja. Neuroverkko osaa kyllä hyödyntää luomiaan vektoreita ja hakea saman tyyppistä sanaa, joskus jopa keksiä itse uuden: kone, joka ei tuntenut sanaa ’spirulina’, kehitti vastineen ’kierulevä’.
Vaikka joidenkin tekstityyppien, esimerkiksi käyttöohjeiden, konekääntäminen kehittyy, ja vaikka konekäännös vaatii kääntäjiltä uusien työtapojen oppimista, ihminen ei ole kokonaan korvattavissa.
Ihmisen taso on määrittelykysymys
Väitteisiin konekäännöksen ihmisentasoisesta laadusta Maarit Koponen suhtautuu käytännöllisesti: ensin pitäisi määritellä, mitä laatu tarkoittaa.
Konekäännösten laatuun ei ole odotettavissa mitään valtavaa harppausta.
Näitä väitteitä ovat esittäneet monet tahot, mutta Koposen mukaan ne ovat alun perin lähtöisin Googlen vuonna 2016 julkaisemasta tutkimusartikkelista. Tutkimuksessa arvioijat vertailivat ihmisen ja koneen tekemää käännöstä toisiinsa ja arvioivat tietyllä asteikolla, miltä osin koneen versio oli samanlainen kuin ihmisen.
– Kontekstistaan irrotetuista virkkeistä siis kerättiin asteikkoarvioita ja sen perusteella pääteltiin käännöksen taso. Asetelmassa on ongelmia: arvioijat olivat joukkoistamalla haettuja vapaaehtoisia, eivät ammattikääntäjiä. Heidän valmiuksistaan arvioida käännöksiä ei siis ole tietoa. Lisäksi arviointiin vaikutti käännöksen sujuvuus, ei niinkään merkitys: jos koneen versio on sujuva, merkityksen puuttumista ei irrallisessa tekstipätkässä välttämättä havaita. Googlen tutkimuksen asetelmassa oli muitakin metodologisia hankaluuksia.
Maarit Koposen mukaan konekäännösten laatuun ei ole odotettavissa mitään valtavaa harppausta.
– Pieniä parannuksia tehdään ja tiettyjä ongelmia ratkotaan. Esimerkiksi Google Translaten ja muiden kääntimien sukupuolittuneisuuteen yritetään puuttua. Jatkuvasti painitaan myös sanojen monimerkityksisyyden ja kontekstin haasteiden kanssa. Kun ihminen ei välttämättä aina ymmärrä vivahde-eroja, ei konekaan siihen pysty.
Vain ihminen pystyy kuitenkin kääntämään sanojen lisäksi sen, mitä yritetään viestiä.
lue lisääOikolukuohjelma auttaa pieniä kieliyhteisöjä säilymään