Kuvantunnistusohjelma luulee tummaihoisia ihmisiä gorilloiksi ja Google-haku voi näyttää naisille huonommin palkattuja työpaikkoja kuin miehille. Molemmat ovat tosielämän klassikkoesimerkkejä algoritmien harjoittamasta syrjinnästä, jota pidetään yhtenä suurimmista tekoälyn kehitykseen liittyvistä ongelmista.
Mutta mistä syrjintä syntyy? Siitä, että koneoppimisalgoritmia on opetettu vinoutumia sisältävällä datalla, josta se alkaa tehdä vinoutuneita päätöksiä, sanoo tietojenkäsittelytieteen apulaisprofessori Indrė Žliobaitė, joka on tutkinut koneoppimiseen kytkeytyvää syrjintää ja sen estämistä.
Kaikki erottelu ei ole syrjintää. Esimerkiksi ennusteita tekevät algoritmit toimivat niin, että ne valitsevat tiettyjä ominaisuuksia ja erottavat yksilöt sillä tavoin toisistaan. Jos emme tekisi eroja yksilöiden välille, kaikki saisivat pankeilta saman luottoriskiarvion ja suoratoistopalveluilta samat elokuva- tai musiikkisuositukset.
– Eihän tuomari tai lääkärikään anna jokaiselle samanlaista tuomiota tai diagnoosia, Žliobaitė vertaa.
Algoritmi löytää vihjeet
Ihminen voi päättää, että etninen tausta ei suoraan vaikuta kenenkään velanmaksukykyyn, mutta algoritmin valintoihin tämä voi vaikuttaa. Jos datassa jostain syystä on epäsuora linkki etnisyyden ja lainanmaksun välillä, algoritmi poimii tämän signaalin, ellei sitä ole opetettu toisin.
Jos asut alueella, jolla tulotaso on keskimääräistä heikompi ja tietty kansallisuus sattuu olemaan yleinen, maksukykyä ennustava algoritmi alkaa nähdä korrelaatioita näiden asioiden välillä. Jos algoritmia ei ole opetettu toisin, se päättelee, että tiettyä kansallisuutta olevat ihmiset ovat muita todennäköisemmin pienituloisia, eivätkä he saa lainaa.
– Datasta oppivat algoritmit oppivat sitä, mitä niille syötetään. Jos haluamme estää vinoumat, meidän pitää kääntää ihmisyhteisön moraaliset ja eettiset säännöt sekä merkitykset iän, etnisyyden, uskonnon ja sukupuolen takana matemaattisiksi rajoitteiksi ja opettaa ne päätöksenteossa käyttämillemme algoritmeille, Žliobaitė sanoo.
Syrjintään herättiin myöhään
Tietojenkäsittelytiede alkoi herätä algoritmien opetusdatan reiluuteen kymmenisen vuotta sitten, kun algoritminen päätöksenteko ja big data -hype alkoivat levitä. Žliobaitė oli tuolloin tutkijatohtorina Eindhovenin teknillisessä yliopistossa Hollannissa. Hän liittyi tutkimusryhmään, joka kehitti tiedon luokittelun menetelmiä, jotka huomioisivat syrjintänäkökulman.
Žliobaitė huomasi, että nyt oltiin uuden, kiinnostavan ilmiön äärellä. Julkista keskustelua algoritmien epäreiluudesta ei tuolloin vielä juuri ollut.
– Suuri yleisö ajatteli silloin, että algoritmien tekemät päätökset ovat automaattisesti reiluja ja objektiivisia. Meidän oli vaikea vakuuttaa edes koneoppimisen ja tiedonlouhinnan asiantuntijoita siitä, että asia ei ole näin.
Kunnolla algoritminen syrjintä nousi keskusteluun vasta muutama vuosi sitten. Nyt sitä tutkitaan myös oikeudenmukaisen yhteiskunnan, ei vain tekniikan näkökulmasta.
– Ongelma on, että mikään data ei ole täydellistä. Se heijastelee aina yhteiskuntaa, Žliobaitė sanoo.
Tilastot auttavat jäljityksessä
Miten me sitten voimme huomata, jos olemme tulleet algoritmin syrjimiksi?
Žliobaitėn mukaan samaan tapaan kuin jos arvioisimme ihmisten tekemiä päätöksiä. Suora syrjintä on ainakin teoriassa helppo huomata. Jos esimerkiksi kaksi saman taustaista ihmistä hakee työpaikkaa, ja hakijoita lajitteleva algoritmi ei päästä toista jatkoon, on mahdollista kokeilla, miten vaikkapa sukupuolen pois jättäminen olisi vaikuttanut tulokseen. Jos tulos muuttuu, sukupuolen perusteella on syrjitty.
Yleensä asiat eivät ole näin yksinkertaisia, sillä algoritmi voi syrjiä myös epäsuorasti.
– Voimme esimerkiksi katsoa tilastoja yrityksessä annetuista ylennyksistä ja verrata niitä kaikkien työntekijöiden tietoihin. Jos tietyntaustaisten ihmisten urakehitykset poikkeavat suhteellisesti paljon yrityksen valtavirrasta, kyseessä voi olla epäsuora syrjintä.
Žliobaitėn mukaan on lopulta samantekevää, onko päätöksentekijänä tekoälymenetelmä vai ihminen. Meidän pitää joka tapauksessa ratkaista, mitä ominaisuuksia päätöksenteossa saa katsoa ja missä määrin.
– Nämä standardit eivät tule tietokoneilta vaan siitä, mitä me yhteiskuntana pidämme oikeana. Meidän pitää opettaa tekoälylle arvomme, jotta ne toimisivat taustalla kuten muussakin inhimillisessä päätöksenteossa.
Alun avoimuus auttaa myöhemmin
Kun algoritminen syrjintä tuli julki, ihmiset alkoivat mieltää sen samalla tavalla kuin yksityisyyden suojan: mitä enemmän yksilöivää tietoa pysyisi piilossa, sen parempi. Samaa ajatusmallia ei kuitenkaan voi soveltaa koneoppimiseen, sillä sukupuolen tai etnisyyden kaltaisten asioiden piilottaminen datasta voi itse asiassa huonontaa tilannetta.
Žliobaitėn mukaan syrjintää mahdollisesti tuottavien ominaisuuksien piilottaminen auttaisi vain, jos aineistossa ei olisi mitään muita ominaisuuksia, jotka voisivat korreloitua niiden kanssa. Algoritmi voi esimerkiksi alkaa tunnistaa ihmisen etnisen taustan jonkin sanavalinnan tai datasta löytyvän muun vihjeen kautta, jolloin etnisyyden mainitsematta jättämisellä ei ole väliä.
Algoritmille kannattaa siis koulutusvaiheessa mieluummin antaa kaikki tieto, myös sellainen, jota pidämme syrjintää tuottavana. Koulutusprosessin aikana syrjivinä pidettyjä signaaleja voi sitten poistaa.
– Jotta voimme hallita ja poistaa ennustemalleista herkkiä ominaisuuksia, niiden on oltava mukana silloin, kun algoritmia koulutetaan. Tämä on ainoa tapa saada yhteiskunnan arvot rakennettua sisään algoritmiin. Kun algoritmi on rakennettu, sen ei pitäisi käyttää päätöksenteossa herkkinä pidettyjä ominaisuuksia.
Lisää luottamusta tulevaisuudessa
Žliobaitė uskoo, että oikeudenmukaisen tekoälyn ja koneoppimisen seuraava kehitysvaihe on, että alamme jollain tavalla valvoa algoritmien rakennusvaiheita.
– Algoritmeista puhutaan nyt monimutkaisina mustina laatikoina. Sanotaan, että niiden pitäisi olla läpinäkyvämpiä. Mutta emmehän odota samanlaista läpinäkyvyyttä lääkäriltäkään, vaan luotamme hänen koulutukseensa ja kokemukseensa.
GDPR suojaa, mutta myös paljastaa
EU:n tietosuoja-asetuksen ansiosta jokainen voi pyytää esimerkiksi yritystä poistamaan rekistereistään itseään koskevat tiedot. Tästä voi tulla vielä haasteita etenkin ennustemallien rakentajille, arvelee tietojenkäsittelytieteen apulaisprofessori Indrė Žliobaitė.
Esimerkiksi pankit ovat voineet käyttää tekoälymenetelmiä tiivistämään asiakkaidensa tiedoista datan yhteenvetoja eli malleja, joiden mukaan ne arvioivat asiakkaidensa luottoriskejä. Kun malli on saatu luotua, pankki voi hävittää asiakastiedot, joita mallin luomiseen tarvittiin.
Jos sitten ihmiset alkavat pyytää tietojensa poistamista pankin malleista, mallit pitäisi luoda uudelleen. Yksittäisen ihmisen tietojen poistaminen luottoriskimalleista voi Žliobaitėn mukaan olla mahdotonta, jos käytössä ei ole kaikkea muutakin alkuperäistä dataa. Alkuperäistä dataa ei siis kannata poistaa, jotta yksittäisten ihmisten poistotoiveet olisi mahdollista täyttää.
– Tämä on kaksiteräinen miekka. Jos ihmisille halutaan antaa mahdollisuus tietojensa poistamiseen, pitäisi samalla säilyttää kaikkien yksityisyyskohtaiset tiedot paljon nykyistä pidempään. Tietosuoja-asetuksen antama oikeus tulla unohdetuksi tulee siis muiden yksityisyydensuojan hinnalla. Tästä ei ole vielä kunnolla keskusteltu, Žliobaitė sanoo.