Kenellä on alttius sairastua diabetekseen, mikä migreenilääke auttaisi juuri sinua – algoritmit etsivät vastauksia datamassoista

Algoritmit etsivät jo sairastumisriskiin vaikuttavia geenejä ja auttavat kehittämään yhä tarkempia lääkkeitä. Uusien laskentaideoiden ja algoritmien kehittäjiä tarvitaan lääkekehityksen taustajoukkoihin yhä enemmän.

Viime vuosina esimerkiksi diabeteksen ja sydänsairauksien taustalta on löytynyt satoja perimän muutoksia, jotka vaikuttavat riskiimme sairastua näihin sairauksiin. Vielä ei kuitenkaan tiedetä tarkasti, mitä näiden geneettisten tekijöiden takana on ja miten ne toimivat yhdessä.

– Genetiikan ymmärrettäväksi tekeminen tulee yhä tärkeämmäksi, kun lääkitysten valinta yksilöllistyy. Tavoitteena on hyödyntää potilaan geenimuotoja, kun hänelle valitaan parasta lääkitystä ja hoitomuotoa, kertoo tilastollisen genomiikan apulaisprofessori Matti Pirinen.

Näitä sairastumisriskiin vaikuttavia perimän muutoksia Pirinen etsii Suomen molekyylilääketieteen instituutissa FIMMissä osana tautigenetiikan huippuyksikköä, jossa hän johtaa laskennallisen genomiikan tutkimusryhmää. Se soveltaa tilastollista koneoppimista genomidatan analyysiin ja populaatiogenetiikkaan. Ryhmään kuuluu matematiikan, tilastotieteen ja bioinformatiikan asiantuntijoita.

Huippuyksikön tutkijat etsivät geenimuotoja, jotka vaikuttavat riskiimme sairastua esimerkiksi migreeniin, sydän- ja verisuonitauteihin, diabetekseen, tulehduksellisiin suolistosairauksiin ja psykiatrisiin sairauksiin. Aineistona heillä on tuhansien ihmisten näytteistä saatuja miljoonia geenimerkkejä.

Näin suurista massoista ei löytyisi mitään hyödyllistä ilman koneoppimisalgoritmeja, jotka etsivät luotettavaa ja toistuvaa tietoa.

– Voimme esimerkiksi etsiä tapauksia, jotka ovat geneettisesti ja muilla tavoin samankaltaisia sairastuneen yksilön kanssa. Sitten haluamme tietää, millaiset hoitomenetelmät aiemmissa tapauksissa ovat tai eivät ole toimineet. Tällaisen idean systemaattinen ja tehokas toteutus vaatii koneoppimisalgoritmeja, jotka luokittelevat monimutkaista dataa ja tulevaisuudessa myös tekevät ehdotuksia hoitovalinnoista lääkärille, Pirinen kertoo.

Algoritmi löytää riskigeenit

Nyt Pirisen ryhmällä on työn alla kaksi tutkimusta. Ensimmäinen, yhteistyössä Aarno Palotien ryhmän kanssa tehtävä tutkimus etsii yli sadantuhannen migreeniä sairastavan näytteistä geenimuotoja, jotka ovat heillä yleisempiä kuin terveillä ihmisillä. Tätä varten Pirisen ryhmään kuuluva Christian Benner on kehittänyt muuttujanvalintaa tekevän FINEMAP-algoritmin, joka etsii sairastumisriskiin vaikuttavia, biologisesti merkittäviä geenimuotoja.

– Jos ihminen kantaa tiettyä geenimuotoa, hänellä on suurempi riski sairastua kuin jotain muuta muotoa kantavalla ihmisellä. Kuitenkin vain pienellä osalla sairauksiin tilastollisesti kytkeytyvistä geenimuodoista on suora biologinen yhteys taudin syntyyn. FINEMAP-algoritmilla haluamme löytää geneettisiä tekijöitä, jotka vaikuttavat suoraan sairauden biologiaan ja joihin voi vaikuttaa lääkkeillä, Pirinen kertoo.

FINEMAP-algoritmi ei anna hoitosuosituksia, mutta se helpottaa lääkekehittäjien työn alkuvaihetta löytämällä sairauksien kannalta merkittäviä geenimuotoja. Ohjelmisto muuntaa moniulotteisen datan helpommin tulkittaviksi todennäköisyyksiksi, joiden pohjalta voi arvioida kunkin geenimuodon biologista merkittävyyttä.
 

Kuva Finemap-algoritmin toiminnasta.

Esimerkki FINEMAP-algoritmin toiminnasta. Kuvissa näkyy alue LIPC-geenin ympäristöstä kromosomista 15 ja kunkin genomin kohdan (x-akselilla) tilastollinen assosiaatio (y-akselilla) HDL-kolesterolitasoihin. Ylempi kuva: tulokset FINEMAP-algoritmista. Alempi kuva: perusanalyysin tulokset. FINEMAP ehdottaa vaikuttaviksi kohdiksi kolmikkoa, joka osoittautuu tilastollisessa mielessä 190 kertaa paremmaksi ehdokkaaksi kuin perusanalyysin ehdottama kolmikko.

Toinen meneillään oleva tutkimus käsittelee sairastumisriskiin vaikuttavien geenimuotojen maantieteellistä jakaumaa Suomessa.

– Tiedämme paljon yksittäisiä genomin kohtia, joilla on pieni vaikutus johonkin tautiin. Nyt tutkimme, onko näiden geenimuotojen maantieteellisessä jakaumassa Suomen sisällä sellaisia eroja, jotka voisivat selittää sairastuvuuden maantieteellistä vaihtelua. Tällä tiedolla on merkitystä kansantautien tehokkaassa ehkäisyssä ja hoidossa, Pirinen kertoo.

Tässä tutkimuksessa kymmeniä tuhansia geenikohtia täytyy yhdistää summamuuttujiksi ja tarkistaa, että ne oikeasti kuvaavat sairastumisen riskiä eivätkä pelkästään yleisiä geneettisiä eroja Suomen sisällä. Tässäkin tarvitaan koneoppimisen perusperiaatteita, kuten ristiinvalidiointia ja opetus- ja testausdatojen erottamista.

Ihmistäkin vielä tarvitaan

Ilman algoritmeja moni tulevaisuuden lääke jäisi kehittämättä. Vaikka algoritmi tekee alkutyön, lopulta tuloksia tulkitsee lääkäri, joka näkee, onko koneen tekemissä ehdotuksissa järkeä. Pirinen uskoo, että tulevaisuudessa näemme yhä monimutkaisempia tapoja hyödyntää koneoppimista ja tekoälyä lääkekehityksessä.

– Esimerkiksi terveysrekisterien tietojen yhdistely genomidataan kehittyy nopeasti. Olemmekin siirtymässä karkeasta sairas–terve-luokittelusta yhä tarkempaan kuvaukseen kunkin yksilön oireista ja ominaisuuksista. Tähän tarvitaan uuden sukupolven osaajia, jotka pystyvät hallitsemaan tätä monimuotoista dataa koneoppimisen ja tekoälyn keinoin, Pirinen sanoo.

Miten geenejä haravoiva algoritmi toimii?

FINEMAP-ohjelmisto perustuu shotgun stochastic search -algoritmiin. Sen tehtävä on löytää keskeiset vaikuttimet, esimerkiksi geenimuodot, miljoonien ehdokkaiden joukosta.

Perinteinen tapa etsiä näitä osumia olisi haravoida algoritmilla koko tietomäärä, mikä on hidasta eikä aina edes mahdollista. FINEMAPin tekee erityiseksi se, että se ei käy koko aineistoa läpi. Silti se tuottaa käytännössä saman informaation kuin kaiken perkaava algoritmi.

Algoritmi etenee kaikkien ehdokkaiden joukossa kahdella perustoiminnolla, jotka ovat naapuriehdokkaiden arviointi ja uuden ehdokkaan valinta.

Jokaisella askeleella se muodostaa naapuriehdokkaat tekemällä pieniä muutoksia tämän hetkiseen ehdokkaaseen. Se valitsee uuden ehdokkaan naapuriehdokkaiden joukosta perustuen ehdokkaiden todennäköisyyksiin olla juuri se etsitty merkittävien geenimuotojen joukko, joka vaikuttaa sairauden syntyyn.

Algoritmi toistaa tätä ideaa, kunnes se ei enää kohtaa uusia lupaavia ehdokkaita. Lopettaessaan algoritmi tulostaa kaikki kohtaamansa ehdokkaat sekä niiden todennäköisyydet olla etsitty merkittävien geenimuotojen joukko. Tutkijat käyttävät näitä todennäköisyyksiä, kun he arvioivat, mitä geenimuotoja kannattaa valita tarkempiin jatkotutkimuksiin.

FINEMAP-algoritmin ideoita voi soveltaa myös muiden alojen muuttujanvalintaongelmiin.

Finemap-algoritmin toiminta

Kaavakuva shotgun stochastic search -algoritmin toiminnasta.

Kuvalähde: Christian Benner, Chris C.A. Spencer, Aki S. Havulinna, Veikko Salomaa, Samuli Ripatti, Matti Pirinen; FINEMAP: efficient variable selection using summary data from genome-wide association studies, Bioinformatics, Volume 32, Issue 10, 15 May 2016, Pages 1493–1501

Lue lisää aiheesta: Datatiede