Tiedonhaun menetelmien ympärillä toimii kokonainen tieteenala, jonka tutkijat yrittävät saada meille parempia hakutuloksia. Se on tarpeen, kun datamäärät kasvavat yhä suuremmiksi.
Jotta tämä onnistuisi, tutkijat perehtyvät ihmisen ja koneen vuorovaikutukseen ja yhdistävät siihen koneoppimisen menetelmiä. Yksi alan tutkijoista on Dorota Głowacka, joka aloitti Helsinki Centre for Data Science (HiDATA) -tutkimuskeskuksessa koneoppimisen ja tekoälyn apulaisprofessorina vuoden 2019 alussa.
Głowacka tutkii sitä, mitä ihmiset haluavat hakea ja miten he vuorovaikuttavat hakukoneen kanssa. Głowackan tutkimus keskittyy erityisesti eksploratiiviseen hakuun. Se on tiedonhaun menetelmä, joka auttaa hakijaa löytämään juuri hänelle relevantit asiat, vaikka hän itse ei aluksi tarkkaan tietäisi, mitä hakee.
Google kyllä ennakoi hakusanoja ja valikoi hakutuloksia, mutta sen pidemmälle se ei mene. Se olettaa, että löysit hakusanallasi mitä halusit.
Eksploratiiviseen hakuun perustuva hakukone sen sijaan ryhmittelisi hakutuloksia, esittäisi tuloksiin liittyvää, haun ulkopuolista tietoa ja ehdottaisi uusia hakutermejä. Se myös personoisi hakutuloksia käyttäjän mukaan, mutta paljon sivistyneemmin kuin Google.
Tästä olisi hyötyä esimerkiksi tieteellistä kirjallisuutta perkaaville tutkijoille.
– Fysiikkaa, matematiikkaa ja koneoppimista käsittelevissä artikkeleissa voidaan käsitellä samaa asiaa eri termeillä. Mutta miten matemaatikko löytää myös toisten alojen artikkelit, joissa käsitellään hänelle oleellisia asioita? Juuri tätä eksploratiivinen haku on. Haluamme tutkia hakutuloksia, mutta samalla kaventaa hakua ja keksiä, mitä ihminen haluaa hakea, Głowacka kertoo.
Pakko valikoida
Uudenlaisten hakukoneiden kehittäjät käyttävät tukenaan monenlaista ihmisen ja koneen vuorovaikutuksesta kertovaa tietoa, kuten klikkauksia, silmänliikkeitä ja sivuilla vietettyä aikaa.
Merkitystä on myös sillä, kuka ruudun takana on.
Esimerkiksi kirjallisuushakuja tekevän opiskelijan tiedontarve on erilainen kuin konferenssiesitystä arvioivan professorin. Opiskelija voi hyötyä eniten artikkeleista, jotka johdattavat aiheeseen. Professori taas tarvitsee syvemmälle menevää, tarkkaan rajattua tietoa.
– Vaikka molemmat hakisivat samalla hakusanalla, eksploratiivisen haun tulokset olisivat heille erilaisia, Głowacka sanoo.
Jättiläinen seisoo tiellä
Eksploratiivinen haku kuulostaa hienolta, mutta se ei ole valtavirtaa. Se on toistaiseksi käytössä lähinnä joissakin tieteellisen kirjallisuuden hakukoneissa, erityisissä kirjastokokoelmissa ja arkistoissa.
Tämä johtuu Głowackan mukaan pitkälti siitä, että olemme ehdollistuneet käyttämään Googlea.
– Googlen tapa tehdä tiedonhakua on tällä hetkellä vallitseva. Google on myös opettanut käyttäjät odottamaan hakutuloksena linkkilistaa, joka on järjestetty avainsanojen osuvuuden mukaan. Jos hakutulos ei ole osuva, ihmiset ovat tottuneet korjailemaan hakusanojaan itse.
Głowacka uskoo, että juuri tottumuksemme elämään Googlen kanssa on uusien menetelmien laajan käytön tiellä.
– Uskon silti, että valtavirtahakukoneet alkavat hiljalleen tehdä muutoksia haun tekniikkaan. Tämä johtuu siitä, että tarjolla on yhä enemmän sellaista tietoa, jota nykymenetelmät eivät löydä tehokkaasti, kuten multimediaa. Lisäksi myös yhä useammat kuluttajat alkavat ymmärtää, että nykyisenkaltainen haku ei aina anna osuvimpia tuloksia.
Ulos kuplasta
Tiedonhaun tutkimuksen kuumia kysymyksiä on nyt se, mihin asti hakutuloksia kannattaa muokata käyttäjän mukaan. Muokattava niitä on, sillä mikään hakukone ei pysty näyttämään kenellekään kaikkea dataa, jota verkosta löytyy.
Jos hakutuloksia personoi liikaa, voi syntyä niin sanottu filtterikupla. Jo nyt Google valikoi aiempien klikkailujesi perusteella sinulle tietynlaisia tuloksia, koska pitää niitä sinulle relevantteina. Joku toinen saa samalla hakusanalla erilaiset hakutulokset.
Näin toimivat myös sosiaalisen median algoritmit.
– Personointi on tärkeää, mutta meidän pitää estää filtterikuplien synty. Jos näet esimerkiksi Facebookissa vain tietynlaisen median sisältöjä, alat ajatella, että maailma näyttää tältä. Se on vaarallista, Głowacka sanoo.
Głowackan mukaan vuorovaikutteiset hakukoneet voisivat estää filtterikuplien syntymistä, koska niiden ansiosta näkisimme pakotetusti erilaisia sisältöjä kuin mitä itse valitsisimme.
– Ihminen saisi edelleen sitä mitä hakee mutta altistuisi myös muille asioille. Ehkä klikkaat ja muutat mieltäsi, tutkit uusia polkuja.
Lue lisää:
Exploratory Search and Personalisation -tutkimusryhmä
Esittelyssä HiDATAn uudet asiantuntijat
Tässä juttusarjassa esittelemme Helsinki Centre for Data Science -tutkimuskeskuksen (HiDATA) uusia tenure track -professoreita.
Tutustu muihin osiin: