Tulevaisuuden hakukone auttaa käyttäjää löytämään myös sellaisen tiedon, jota tämä ei tiedä etsivänsä

Tiedonhaku verkosta voisi olla muutakin kun googlettamista – ainakin jos se on tutkijoista kiinni. Dorota Głowacka tutkii vaihtoehtoisia tiedonhaun menetelmiä.

Tiedonhaun menetelmien ympärillä toimii kokonainen tieteenala, jonka tutkijat yrittävät saada meille parempia hakutuloksia. Se on tarpeen, kun datamäärät kasvavat yhä suuremmiksi.

Jotta tämä onnistuisi, tutkijat perehtyvät ihmisen ja koneen vuorovaikutukseen ja yhdistävät siihen koneoppimisen menetelmiä. Yksi alan tutkijoista on Dorota Głowacka, joka aloitti Helsinki Centre for Data Science (HiDATA) -tutkimuskeskuksessa koneoppimisen ja tekoälyn apulaisprofessorina vuoden 2019 alussa.

Głowacka tutkii sitä, mitä ihmiset haluavat hakea ja miten he vuorovaikuttavat hakukoneen kanssa. Głowackan tutkimus keskittyy erityisesti eksploratiiviseen hakuun. Se on tiedonhaun menetelmä, joka auttaa hakijaa löytämään juuri hänelle relevantit asiat, vaikka hän itse ei aluksi tarkkaan tietäisi, mitä hakee.

Google kyllä ennakoi hakusanoja ja valikoi hakutuloksia, mutta sen pidemmälle se ei mene. Se olettaa, että löysit hakusanallasi mitä halusit.

Eksploratiiviseen hakuun perustuva hakukone sen sijaan ryhmittelisi hakutuloksia, esittäisi tuloksiin liittyvää, haun ulkopuolista tietoa ja ehdottaisi uusia hakutermejä. Se myös personoisi hakutuloksia käyttäjän mukaan, mutta paljon sivistyneemmin kuin Google.

Tästä olisi hyötyä esimerkiksi tieteellistä kirjallisuutta perkaaville tutkijoille.

– Fysiikkaa, matematiikkaa ja koneoppimista käsittelevissä artikkeleissa voidaan käsitellä samaa asiaa eri termeillä. Mutta miten matemaatikko löytää myös toisten alojen artikkelit, joissa käsitellään hänelle oleellisia asioita? Juuri tätä eksploratiivinen haku on. Haluamme tutkia hakutuloksia, mutta samalla kaventaa hakua ja keksiä, mitä ihminen haluaa hakea, Głowacka kertoo.

Pakko valikoida

Uudenlaisten hakukoneiden kehittäjät käyttävät tukenaan monenlaista ihmisen ja koneen vuorovaikutuksesta kertovaa tietoa, kuten klikkauksia, silmänliikkeitä ja sivuilla vietettyä aikaa.

Merkitystä on myös sillä, kuka ruudun takana on.

Esimerkiksi kirjallisuushakuja tekevän opiskelijan tiedontarve on erilainen kuin konferenssiesitystä arvioivan professorin. Opiskelija voi hyötyä eniten artikkeleista, jotka johdattavat aiheeseen. Professori taas tarvitsee syvemmälle menevää, tarkkaan rajattua tietoa.

– Vaikka molemmat hakisivat samalla hakusanalla, eksploratiivisen haun tulokset olisivat heille erilaisia, Głowacka sanoo.

Jättiläinen seisoo tiellä

Eksploratiivinen haku kuulostaa hienolta, mutta se ei ole valtavirtaa. Se on toistaiseksi käytössä lähinnä joissakin tieteellisen kirjallisuuden hakukoneissa, erityisissä kirjastokokoelmissa ja arkistoissa.

Tämä johtuu Głowackan mukaan pitkälti siitä, että olemme ehdollistuneet käyttämään Googlea.

– Googlen tapa tehdä tiedonhakua on tällä hetkellä vallitseva. Google on myös opettanut käyttäjät odottamaan hakutuloksena linkkilistaa, joka on järjestetty avainsanojen osuvuuden mukaan. Jos hakutulos ei ole osuva, ihmiset ovat tottuneet korjailemaan hakusanojaan itse.

Głowacka uskoo, että juuri tottumuksemme elämään Googlen kanssa on uusien menetelmien laajan käytön tiellä.

– Uskon silti, että valtavirtahakukoneet alkavat hiljalleen tehdä muutoksia haun tekniikkaan. Tämä johtuu siitä, että tarjolla on yhä enemmän sellaista tietoa, jota nykymenetelmät eivät löydä tehokkaasti, kuten multimediaa. Lisäksi myös yhä useammat kuluttajat alkavat ymmärtää, että nykyisenkaltainen haku ei aina anna osuvimpia tuloksia.

Ulos kuplasta

Tiedonhaun tutkimuksen kuumia kysymyksiä on nyt se, mihin asti hakutuloksia kannattaa muokata käyttäjän mukaan. Muokattava niitä on, sillä mikään hakukone ei pysty näyttämään kenellekään kaikkea dataa, jota verkosta löytyy.

Jos hakutuloksia personoi liikaa, voi syntyä niin sanottu filtterikupla. Jo nyt Google valikoi aiempien klikkailujesi perusteella sinulle tietynlaisia tuloksia, koska pitää niitä sinulle relevantteina. Joku toinen saa samalla hakusanalla erilaiset hakutulokset.

Näin toimivat myös sosiaalisen median algoritmit.

– Personointi on tärkeää, mutta meidän pitää estää filtterikuplien synty. Jos näet esimerkiksi Facebookissa vain tietynlaisen median sisältöjä, alat ajatella, että maailma näyttää tältä. Se on vaarallista, Głowacka sanoo.   

Głowackan mukaan vuorovaikutteiset hakukoneet voisivat estää filtterikuplien syntymistä, koska niiden ansiosta näkisimme pakotetusti erilaisia sisältöjä kuin mitä itse valitsisimme.  

– Ihminen saisi edelleen sitä mitä hakee mutta altistuisi myös muille asioille. Ehkä klikkaat ja muutat mieltäsi, tutkit uusia polkuja.

Lue lisää:
Exploratory Search and Personalisation -tutkimusryhmä

Esit­te­lys­sä Hi­DA­TAn uu­det asian­tun­ti­jat

Tässä juttusarjassa esittelemme Helsinki Centre for Data Science -tutkimuskeskuksen (HiDATA) uusia tenure track -professoreita. 

Tutustu muihin osiin:

Spatiotemporaalisen data-analyysin apulaisprofessori Laura Ruotsalainen: Ih­mis­ten liik­keet aut­ta­vat suun­nit­te­le­maan pa­rem­pia kau­pun­ke­ja

Rinnakkaisen ja hajautetun datatieteen professori Keijo Heljanko: Kas­va­vat da­ta­mas­sat voi­vat jät­tää tie­to­ko­neet jäl­keen­sä ja ai­heut­taa ener­gia­krii­sin

Tietojenkäsittelytieteen ja ilmakehätieteiden apulaisprofessori Kai Puolamäki: Da­ta­tie­de tul­kit­see il­ma­ke­hän hiuk­ka­sia ja auttaa löy­tä­mään kau­pun­gin puh­taim­mat kul­ku­rei­tit – jos osaam­me ky­syä ko­neel­ta oi­kei­ta asioi­ta

Yksityisyyttä suojaavan ja turvallisen datatieteen apulaisprofessori Nikolaj Tatti: Datatiede voi pian paljastaa valeuutisia

Koneoppimisen ja tekoälyn apulaisprofessori Antti Honkela: Si­nul­la­kin on sa­lai­suuk­sia – ko­neop­pi­mi­sen pi­tää kun­nioit­taa yk­si­tyi­syy­den suo­jaa

 

Dorota Głowacka
  • Koneoppimisen ja datatieteen apulaisprofessori Helsinki Centre for Data Science -tutkimuskeskuksessa (HiDATA). Ennen Helsingin yliopistoa työskenteli Edinburghin yliopistossa.
  • Alun perin kielitieteilijä. Väitös (University College London, 2012) käsitteli vahvistusoppimista, joka on koneoppimisen alalaji.
  • Tällä hetkellä tutkii tiedonhaun menetelmiä sekä ihmisen ja koneen vuorovaikutusta.
  • HiDATAssa haluaa kehittää monitieteistä yhteistyötä esimerkiksi digitaalisten ihmistieteiden tutkijoiden kanssa. Hakee yhteisprojekteihin väitöskirjantekijöitä ja tutkijatohtoreita monilta aloilta.