Tekoälyä tiedonhaussa – yliopistolaisille tuttu Iris.ai ehdolla kansainvälisen palkinnon saajaksi

Tutkimuskirjallisuuden löytämiseen suunniteltu Iris.ai-hakukone on ollut Helsingin yliopiston tutkijoiden ja opiskelijoiden käytössä huhtikuusta 2018 lähtien. Palvelu haravoi tutkimusartikkelien kokotekstejä ja hyödyntää kontekstuaalista tietoa tiedonhaussa. Tekoälysovelluksiin keskittyvässä IBM Watson AI XPRIZE -kilpailussa Iris.ai on edennyt jo kymmenen parhaan joukkoon.

Göteborgin yliopiston tutkijalla Christian Bergerilla oli ongelma: itseohjautuvia autoja käsitteleviä tutkimusartikkeleita löytyi niin paljon, että niiden läpikäyminen olisi haukannut tutkimusryhmän työskentelystä vuoden verran. Apu oli kuitenkin lähellä. Tekoälyyn pohjautuva hakukone loi tutkimuskirjallisuudesta kartan, jossa artikkelit jäsentyivät aihealueittain. Bergerin mukaan kartta tarjosi "nopean ja kuitenkin tarkan yleiskatsauksen tutkimuskysymyksen kannalta relevantista aineistosta".

Näin alkaa Nature-lehden puolentoista vuoden takainen juttu, How AI technology can tame the scientific literature. Hakukone, johon jutussa viitataan, on Iris.ai, joka alkaa olla tuttu myös Helsingin yliopiston tutkijoille ja opiskelijoille, sillä sen Premium-versio on ollut saatavilla huhtikuusta 2018 lähtien.

"Iris.ai löysi minut, ensimmäinen yhteydenotto tapahtui jo syyskuussa 2016. Tietenkin kiinnosti ensimmäinen yritys, joka kertoi käyttävänsä keinoälyä tieteellisten julkaisujen löytämiseen. Tässä vaiheessa palvelu oli kuitenkin vielä niin alkutekijöissään, että mistään varsinaisesta tilaamisesta ei vielä puhuttu", johtava tietoasiantuntija Jukka Englund Helsingin yliopiston kirjastosta muistelee.

Sittemmin kehitys on ollut nopeaa, ja viime vuoden joulukuussa Iris.ai valittiin tekoälysovelluksiin keskittyvän IBM Watson AI XPRIZE -kilpailun kymmenen semifinalistin joukkoon – 147 osallistujan joukosta.

"XPRIZE Foundation on tunnettu kilpailuistaan, jotka tähtäävät yhteiskunnallisten ongelmien ratkaisuun nopeasti etenevien teknologioiden avulla. Yksi aiheista on tekoäly. Lähdimme kisaan mukaan 2016, ja sen jälkeen meitä on testattu lukuisia kertoja. Kilpailun advisory boardissa on mukana tunnettuja tekoälytutkijoita, kuten Joshua Bengio ja Peter Norvig", Iris.ain perustajiin kuuluva Maria Ritola mainitsee.

Kirjasto vauhdittamassa kehitystä

Ensimmäisenä suurena asiakkaana Helsingin yliopiston kirjasto on ollut osaltaan edesauttamassa Iris.ain kehitystä. Kirjaston kokemus tutkimuspalveluiden käytöstä, palveluiden ominaisuuksista ja lisenssiasioista on sparrannut Iris.aita.

"Teemme nyt kolmatta vuotta yhteistyötä Helsingin yliopiston kanssa. Työpajoissa, joita on järjestetty kaikilla kampuksilla, on ollut mukana satoja ihmisiä. Työpajoissa saamme reaaliajassa paljon palautetta, näemme mikä toimii ja mikä ei toimi. Uusia ominaisuuksia rakennetaan ihan sen pohjalta, mitä käyttäjät toivovat", Ritola sanoo.

"Innokkaimmat käyttäjät mututuntumalta ovat jatko-opiskelijat. Jos tekee väitöskirjaa, niin Iris.ai näyttää tuovan julkaisujen etsintään kiinnostavan lisän. Työpajoissa on ollut mukana myös tutkijoita, jotka ovat olleet vähintäänkin kiinnostuneita asiasta", Englund kertoo.

Työpajoihin osallistuneiden tutkijoiden ja kirjastolaisten palaute on näkynyt konkreettisesti tuotekehittelyssä, hakuaineistoihin on esimerkiksi lisätty lääketieteen PubMed-viitetietokanta ja Iris.ain hakutulosten vienti viitteidenhallintaohjelmiin on tehty mahdolliseksi.

Palvelua käytetään nykyään valtaosassa Suomen yliopistoista sekä muutamissa ammattikorkeakouluissa. Ulkomailla Iris.ai on käytössä muun muassa Norjassa.

"Teemme yhteistyötä myös yritysmaailman kanssa, esimerkiksi kemianteollisuuden puolella. Rakennamme sinne työkaluja, jotka sopivat erityisesti kemianteollisuuden työskentelyprosesseihin, jotka ovat erilaisia verrattuna akateemisiin tarpeisiin", Ritola mainitsee.

Avoimet artikkelit lähtökohtana

Kirjastossa Iris.ai on kiinnostava avaus tiedonhaun palveluissa, ja se profiloi kirjastoa uuden teknologian omaksujana. Iris.ai tuo myös avoimen tieteen näkökulman tiedonhakuun, koska palvelu hyödyntää tiedonhaussaan yli 80 miljoonan avoimen kokotekstiartikkelin CORE-tietokantaa.

"Iris.ai on tuonut keinoälyn selkeästi esiin, joten kirjastolaiset ovat voineet suhteuttaa oman osaamisensa uudenlaiseen tapaan etsiä tietoa. Tuohon OA-näkökulmaan (open access, OA) on tullut havahduttua vähän myöhässä, mutta sehän sopii mainiosti kirjaston avoimen tieteen kehyksiin", Englund sanoo.

Ritolan mukaan Iris.ain kehittelyssä OA on ollut läheisesti mukana.

"Haluamme lisätä avointen aineistojen käyttöä, ja käytettävyyden parantaminen on tässä keskeisiä steppejä. Onneksi on Coren tapaisia toimijoita, jotka kokoavat repositorioiden aineistoa yhteen. Toki me teemme myös integraatioita tietokantoihin, jotka ovat maksumuurien takana. Ne ovat asiakaskohtaisia yhteistyöprojekteja, joissa asiakkaalla on lisenssi sisältöihin", Ritola sanoo.

Tiedonhaussa ja erityisesti kokotekstien hakemisessa OA-artikkelien saatavuus vaihtelee huomattavasti tieteenaloittain.

"Lääketieteen puolella tuntuu olevan aika hyvin aineistoa, samoin tekoälyn parantamiseen liittyvät olennaiset sisällöt löytyvät arXivista, joka on yksi lukuisista avoimista tietokannoista. Kaikilla tieteenaloilla tätä luksusta, jossa sisältö on avoimesti saatavilla, ei kuitenkaan ole, vaikka sisältö olisi alun perin maksettu julkisista varoista", Ritola sanoo.

Uusi näkökulma perinteiseen tiedonhakuun

Iris.ain tapa hakea tietoa poikkeaa perinteisestä tiedonhausta ainakin kahdella tapaa. Ensinnäkin, tiedonhakija ei laadi hakulausekkeita, vaan kuvaa tutkimusongelmansa mahdollisimman tarkasti, minkä pohjalta hakualgoritmi luo aiheen mukaisia karttoja. Toiseksi, visuaalisuus korostuu tiedonhaussa.

"Kirjastonhoitajana on tottunut kirjoittamaan monimutkaisia hakulausekkeita, ja se tuntuu täsmälliseltä ja pätevältä. Tekoälyavusteinen lähestymistapa tuntuu hämyisemmältä, kun ei näe hakusanarimppuja ja ei tiedä, mitä algoritmit tekevät. Opiskelijalle, jolla Boolen operaattorit eivät ole selkärangassa, Iris.ai voi tuntua paljon selkeämmältä ja helpommalta kuin hakusanarimpsut. Toki ihmiset ovat erilaisia", Iris.aita tiedonhaun opetukseen tuonut tietoasiantuntija Päivi Helminen sanoo

Iris.ain tapaisten palveluiden nähdään ennakoivan tulevaisuuden tiedonhakua, ja sellaisena se on kiinnostava palanen tutkijoiden palveluvalikoimassa. Naturen jutun haastattelema Giovanni Colavizzan mukaan tekoälyä hyödyntävät hakukoneet saattavat viedä myös tutkimusta uusille alueille.

Tiedonhaun kokonaisratkaisuksi yksittäinen palvelu sopii huonosti, kuten alussa mainittu tutkija Christian Bergerkin myöhemmin Naturen jutussa toteaa: "Blindly using any research engine doesn’t answer every question automatically." Tätä myös Iris.ain toimitusjohtaja Anita Schjøll Brede toi esiin tammikuun työpajassa Kaisa-talossa: tekoälypalvelu auttaa hahmottamaan tiedontarpeen paremmin, ja sitä voi hyödyntää myös perinteisessä tiedonhaussa. Kirjastossa nähdään samoin: Iris.ai täydentää nykyistä tiedonhakua ja tuo siihen uusia elementtejä.

"Iris.ai kannattaa tuoda sopivissa yhteyksissä yhtenä vaihtoehtona esille. Yleisesti kannattaa seurata miten tällaiset keinoälyyn konkreettisesti tukeutuvat palvelut kehittyvät verrattuna perinteisiin tietokantapalveluihin, joihin jatkossa myös sisällytetään keinoälykomponentteja", Englund sanoo.

Myös Iris.ain kehitystyö jatkuu, ja akateemisen työkalun parantaminen on siinä avainasemassa.

"Missiomme liittyy siihen, että tutkijat saavat hyödynnettyä tieteellistä tietoa aiempaa paremmin. Jos palvelu ei ole tarjolla yliopistotutkijoille, olemme rajanneet ison osan vaikuttavuudesta ulkopuolelle", Ritola toteaa.

Neljä vinkkiä Iris.ain käyttöön

Kirjaston tietoasiantuntija Päivi Helminen on hahmotellut Iris.aille muutamia konkreettisia käyttötarkoituksia tiedonhaun opetukseen liittyvien kokemusten pohjalta:

  1. Lisäkirjallisuuden etsiminen: "On jo yksi hyvä artikkeli ja pitää löytää nopeasti jotain samantyyppistä. Tähän kyllä tavalliset tietokannatkin sopivat hyvin, mutta jos tykkää enemmän Iris.ai:sta."
  2. Tutkimusalueen kartoitus: "Tutustuu tutkimusaiheeseensa ja kartoittaa, mitä kaikkea aiheeseen liittyy ja mitkä käsitteet ja asiasanat liittyvät aiheeseen. Tämä sopii loistavasti opiskelijoille ja tohtorikoulutettaville. Ja sitten kun aihe ja sanasto on tuttu, voi jatkaa maksullisiin tietokantoihin."
  3. Uudesta inspiroituminen: "Jos on jo tehnyt hakuja tavallisissa tietokannoissa, mutta tuntuu, että on jumissa aiheensa kanssa ja haluaa laajentaa perspektiiviään ja ajatteluaan. Tämä ehdotus tuli keskustakampuksen tutkijankoulun tiedonhankinnan kurssin osallistujalta."
  4. Tiedonhaun tarkistus: "On tehnyt systemaattisen tiedonhaun perinteisillä menetelmillä perinteisissä tietokannoissa ja haluaa lopuksi tehdä lisähakuja tarkistaakseen, onko jäänyt löytymättä jotain aiheeseen liittyvää."

Iris.ai-työpajoja järjestetään huhtikuussa kaikilla Helsingin yliopiston kampuksilla, ja ilmoittautuminen on käynnissä. Lue lisää blogiuutisesta!

Iris.ai – tekoälyä hyödyntävä palvelu tieteelliseen tiedonhakuun
  • Iris.ai syntyi vuonna 2015 NASA Amesin tutkimuskeskuksessa sijainneessa Singularity Universityssa. SU on ajatushautomon ja yrityskiihdyttämön välimuoto, ja Iris.ain perustajat saivat tehtäväkseen perustaa yrityksen, joka vaikuttaa myönteisesti miljardin ihmisen elämään.
  • Iris.ai pyrkii edistämään tekoälyn avulla tieteellisen tiedon hyödyntämistä auttamalla tutkijaa relevantin tutkimuskirjallisuuden löytämisessä. Kirjallisuuskatsausten tekemisessä se auttaa myös opiskelijaa.
  • Tiedonhakuprosessi: (1) tiedonhakija muotoilee tutkimuskysymyksen, (2) Iris.ai käy läpi tutkimusartikkelien kokotekstejä ja luo sen pohjalta aiheenmukaisia karttoja, (3) tiedonhakija tarkentaa hakua arvottamalla Iris.ain ehdottamia artikkeleita.
  • Tällä hetkellä Iris.aissa työskentelee vajaa parikymmentä ihmistä. Palvelulla on käyttäjiä eri puolilla maailmaa.
  • Iris.ai valittiin kansainvälisen IBM Watson AI XPRIZE -kilpailun kymmenen semifinalistin joukkoon. Kilpailuun kelpuutettiin 147 tiimiä 22 maasta. Kilpailussa arvioidaan teknistä toteutusta, vaikuttavuutta, skaalautuvuutta sekä etiikkaa ja turvallisuutta. Voittaja selviää kevään aikana. Pääpalkinto on kolme miljoonaa dollaria.
  • Iris.ain kaltaisia tiedonhaun työkaluja ovat Semantic Scholar ja Microsoft Academic ja datatiedonhaun puolella mm. Euretos ja SourceData.