Tarkentuva tieto ihmisen geenien toiminnasta auttaa kehittämään tehokkaampia lääkkeitä ja parempia hoitoja esimerkiksi syöpäsairauksiin. Kehityksen taustalla on valtavia määriä geeniperimän luennasta eli sekvensoinnista kertyvää dataa, ja geenitiedon määrä jatkaa kasvuaan. Maailmanlaajuisesti tutkijat rakentavat parhaillaan pangenomia eli kattavaa kuvaa kaikkien ihmisten geeniperimästä.
Tutkijat etsivät geenidatasta tietoa tietokoneohjelmistoilla, jotka sisältävät erilaisia algoritmeja eli tarkkoja ohjeita tiettyjen tehtävien suorittamiseksi. Algoritmien avulla pystytään etsimään toistuvia kuvioita tai poikkeamia, jotka voivat kertoa esimerkiksi sairauksista.
Nyt on tultu tilanteeseen, että aiemmin käytössä olleet algoritmit eivät enää suoriudu tehtävästään tarpeeksi nopeasti. Tutkijat myös haluavat kaivaa genomeista esiin yhä monimutkaisempia asioita, eli algoritmit saavat raskaampia tehtäviä ja hidastuvat. Algoritmeista pitää siis saada nopeampia ja tehokkaampia.
Kohti tuhatkertaista nopeutta
Helsingin yliopistossa algoritmisen bioinformatiikan apulaisprofessorina työskentelevän Alexandru Tomescun tutkimusryhmä kehittää tekniikoita, jotka voisivat nopeuttaa monia bioinformatiikan algoritmeja. Ryhmän tavoite on, että algoritmit toimisivat nopeasti myös suuremmissa datakokonaisuuksissa ja suoriutuisivat ketterästi yhä monimukaisemmista tehtävistä.
Esimerkiksi aivotutkijat voivat haluta selvittää geenien ilmentymistä eri kudoksissa tai jopa yksittäisissä soluissa. Geenien ilmentymisen tarkka mallintaminen on nykyisille tietokoneohjelmistoille äärimmäisen vaikea ongelma, ja ohjelmistot tuottavat lähinnä likimääräisiä arvioita.
Tomescun ryhmä haluaa muuttaa tilanteen.
– Idea on, että tunnistamme datasta muuttujia, jotka vastaavat aineiston sisältöä, ilman että koko aineisto tarvitsee käydä läpi monta kertaa. Kehitämme algoritmeja, jotka pystyvät nopeasti poimimaan halutut tiedot datasta. Etsimme tavallaan oikoreittejä datan rakenteesta, Tomescu kertoo.
Esimerkiksi kun genomi sekvensoidaan eli perimä luetaan, luentaohjelma esittää tulokset merkkijonona, jonka pituus voi olla jopa 250 miljoonaa merkkiä. Kun sekvensoidaan kymmenentuhannen ihmisen perimät, merkkejä syntyy tuhatkertainen määrä eli 2500 miljardia.
Klassisilta algoritmeilta kuluisi aineiston läpikäyntiin noin kaksi päivää. Tomescun ryhmän algoritmeilla valtava tietomassa voidaan käydä läpi paljon pienempänä kokonaisuutena, joka vastaa kooltaan vain noin kymmenen ihmisen tietoja. Laskentatulos syntyisi alle kolmessa minuutissa eli tuhat kertaa nopeammin.
Suorituskykyisempien algoritmien hyödyistä on jo konkreettista näyttöä biolääketieteessä. Uusien algoritmien avulla soluista on mahdollista nähdä, miten geenit ilmentyvät. Näin voidaan esimerkiksi jäljittää aivosolujen toimintaa ja auttaa esimerkiksi ikääntymisen tutkimusta. Tomescun ryhmän tähän tarkoitukseen kehittämä ohjelmisto on jo niittänyt alalla menestystä.
Algoritmien nopeuttaminen käytännössä
Miten algoritmeja käytännössä voi nopeuttaa?
– Yksinkertaisesti siten, että räätälöimme ne hyödyntämään niitä erityispiirteitä, joita genomeista luetun datan merkkijonoissa on, Tomescu sanoo.
– Jos esimerkiksi tehtäväsi olisi purkaa rekkalastillinen omenoita varastoon, ilman mitään ohjeita voisit alkaa työhön yksi omena kerrallaan. Sitten huomaisit, että omenat ovat laatikoissa ja laatikoiden siirtely käy nopeammin. Sitten huomaisit, että laatikot ovatkin kuormalavoilla, ja voisit jatkaa työtä trukilla, Tomescu vertaa.
Tässä esimerkissä laatikot ja kuormalavat on helppo huomata ja työn tehostaminen on yksinkertaista. Genomitiedoissakin on mahdollista huomata isompia kokonaisuuksia, kuten kymmenen ihmisen ryppäitä. Käytännössä näitä aputekijöitä on kuitenkin vaikea havaita.
– Vaikka tunnistaisimme geeniaineistosta jonkin erityispiirteen, sen hyödyntäminen datan käsittelyn nopeuttamiseksi voi olla haastavaa. Se olisi kuin yrittäisi nostaa oudon muotoista kuormalavaa tavallisella trukilla. Uudet, nopeat algoritmit ovat kuin uudenlaisia laatikoita tai trukkeja, joilla voi ratkoa monenlaisia ongelmia, Tomescu kertoo.
Tähtäimessä tehokkaat genomihakukoneet
Alexandru Tomescu sai hiljattain algoritmitutkimukselleen Euroopan tutkimusneuvoston (ERC) arvostetun Consolidator Grant -rahoituksen. ERC-rahoitetun tutkimuksen tavoite on nähdä tarkemmin esimerkiksi aivosolujen toimintamekanismeja ja luoda tehokkaita genomihakukoneita. Tulokset voivat nopeuttaa läpimurtoja biolääketieteellisessä tutkimuksessa ja yksilöllisessä lääketieteessä.
Tomescun ryhmän tutkimus on perustutkimusta eli se luo perustusta tulevaisuuden konkreettisille hoidoille.
– Vaikka meidän työmme on vielä kaukana potilaasta, toivomme, että nopeammat algoritmit auttavat bioinformatiikan tutkijoita kehittämään uudenlaisia ohjelmistoja diagnosoinnin ja potilaiden hoidon tueksi. Toivottavasti työmme ansiosta tulevaisuudessa geeneistä saadaan entistä tarkempaa tietoa, Tomescu sanoo.
Algoritmien tuoma ajansäästö voi näkyä esimerkiksi siten, että laboratorioissa ei tarvitse odotella kovin pitkään koneen raksutellessa tuloksia. Tomescun mukaan nopeat algoritmit myös käyttävät vähemmän energiaa kuin raskaammat verrokkinsa. Lisäksi lopulta säästyy sekä rahaa että vaivaa, kun laskennallisilla täsmäiskuilla voidaan vähentää sekvensointien tarvetta.
Tarkkuus säilyy
Tomescu painottaa, että nopeampien algoritmien tulokset ovat todistettavasti yhtä tarkkoja kuin klassisten, hitaampien algoritmien tulokset.
– Matemaattinen tarkkuus on kaiken perusta. Voimme matemaattisesti todistaa, että meidän metodeillamme saadaan samat tulokset kuin muillakin mutta nopeammin, Tomescu sanoo.
Sekä vanhojen että uusien algoritmien kanssa ollaan usein tilanteessa, että vaikein ongelma onkin keksiä, mikä ongelma oikeastaan pitäisi ratkaista.
– Meillä on vielä paljon työtä. Uskomme kuitenkin, että menetelmiämme voi mukauttaa moniin ongelmiin, joita biolääketieteen tutkijat tulevaisuudessa pitävät tärkeinä.