Valtteriksi kutsuttu botti (
Kieliteknologiaan erikoistunut data-analyytikko
– Generaattorin ensimmäinen versio on tehty pitkälti käsin. Kokemusten perusteella pyrimme sitten tunnistamaan missä koneoppiminen tuo eniten lisäarvoa, Leppänen kertoo.
Valtteri valikoi oikeusministeriön vaalitulosdatasta annettuun teemaan liittyviä faktoja ja muodostaa niistä tekstikappaleita tutkimusryhmän toimittajataustaisten jäsenten tuottamien lausepohjien avulla.
– Kuten monet ihmisten tekemät asiat, tämä vaikuttaa ensisilmäykseltä suhteellisen yksinkertaiselta. Mutta tietokoneelle tässä on suuri haaste: miten kone tietää mikä on kiinnostavaa tai tärkeää? Botillamme on esimerkiksi Helsingistä yli 2 miljoonaa vaalitulosta koskevaa numeroa, muun muassa puolueiden ja ehdokkaiden kannatusten muutoksia. Ihmisellä on oleellisten asioiden poimintaan valtava määrä hiljaista tietoa. Tietokone taas ei tiedä mitään, mitä emme sille erikseen kerro, Leppänen selostaa.
– Seuraavassa vaiheessa Valtteri tavallaan seuraa ihmisjournalisteja ja pyrkii löytämään juuri tästä ensimmäisestä versiosta puuttuvaa hiljaista tietoa. Tietokone vain on kovin hidas oppija, joten esimerkkejä tarvitaan paljon.
Leppänen korostaa, että kyseessä on kokeilumielessä kehitelty järjestelmä. Myös
Projektia rahoittavat
Lisätietoa Valtterista ja
Professori Hannu Toivonen, tietojenkäsittelytieteen laitos, Helsingin yliopisto
+358 50 9 112 405
Yliopistotutkija Carl-Gustav Lindén, Svenska social- och kommunalhögskolan, Helsingin yliopisto
+ 358 40 5 157 682
Tutkijaprofessori Caj Södergård, VTT
+358 50 5 539 356