Helsingin yliopisto mukaan Euroopan laajuiseen pangenomiikan algoritmien tutkimukseen

Tutkimus etsii nykyistä tehokkaampaa tapaa esittää genomien sekvensoinnista kertyvät datamassat ja helpottaa tiedon hyödyntämistä esimerkiksi sairauksien hoidossa.

Helsingin yliopiston tutkijat osallistuvat ensi vuodesta alkaen Euroopan laajuiseen tutkimusprojektiin, joka käsittelee pangenomiikan algoritmeja. Tammikuussa 2021 alkava ALgorithms for PAngenome Computational Analysis (ALPACA) -tutkimusprojekti kestää neljä vuotta. Projekti sai 3,67 miljoonan euron rahoituksen Euroopan unionin Marie Skłodowska-Curie Innovative Training Networks (ITN) -ohjelmasta.

Pangenomi tarkoittaa eliölajin kaikkien yksilöiden genomien kokoelmaa. Kehittyvät sekvensointitekniikat saavat genomeista irti yhä suurempia määriä dataa. Kun tätä tietoa kertyy valtavasti, sen käsittelyyn ja analysointiin on pakko kehittää aiempaa tehokkaampia keinoja. 

Perinteisesti lajin tyypillinen genomi esitetään käyttämällä referenssigenomia, joka on lineaarinen, sekvenssimuotoinen esitystapa. Referenssigenomin käytössä riskinä on, että analyysit vääristyvät tukemaan referenssigenomin sisältöä. Alkavan tutkimuksen tarkoitus on selvittää, voisiko perinteisen referenssigenomin korvata verkkomuotoisella esitystavalla. Siinä otetaan huomioon lajin sisäinen vaihtelu. 

– Verkkomuotoisessa esityksessä genomin eri variantit ovat keskenään tasa-arvoisessa asemassa, ja vääristymiä ei tule. Koska iso osa sekvensointiin perustuvasta lääketieteellisestä tutkimuksesta ja analytiikasta käyttää referenssigenomia, verkkomuotoisella esityksellä voi olla merkittävä rooli personoidun lääketieteen kehityksessä, sanoo tietojenkäsittelytieteen professori Veli Mäkinen Helsingin yliopistosta.   

Kantasekvenssien muodostamasta verkosta jo tutkimusta

Mäkisen tutkimusryhmä on kehittänyt kantasekvensseihin perustuvan verkkomuotoisen esityksen, joka julkaistaan WABI 2020 (Workshop on Algorithms in Bioinformatics) -kokouksessa syyskuussa. 

– Kantasekvenssit ovat ennusteita lajin esivanhempien genomeista. Näiden muodostama verkko esittää mahdollisia genomien yhdistelmiä. Verkkoa voidaan optimoida niin, että minimoidaan epätodennäköisten yhdistelmien muodostumista, ja samalla uuden sekvensoidun genomin osia voidaan hakea tehokkaasti, Mäkinen kertoo.

Alkavassa ALPACA-projektissa jatkojalostetaan ratkaisua muun muassa elinluovutusdiagnostiikan avuksi valkosolujen kudosspesifisien antigeenien (engl. human leukocyte antigens, HLA) analyysiin.

Jatko-opiskelija kantasekvenssien pariin

Neljän vuoden aikana ITN-verkosto kouluttaa eurooppalaisissa yliopistoissa ja tutkimuslaitoksissa 14 jatko-opiskelijaa, joista yksi palkataan Helsingin yliopistoon. Jatko-opiskelijan tehtävä on kehittää kantasekvensseihin perustuvaa pangenomin esittämistapaa. Haku jatko-opiskelupaikkoihin aukeaa alkuvuodesta 2021.

Helsingin yliopistoa verkostossa edustaa professori Veli Mäkinen algoritmisen bioinformatiikan tutkimusryhmästä. Mäkinen toimii myös Helsingin yliopistoon palkattavan jatko-opiskelijan pääohjaajana. 

Muina ohjaajina toimivat Richard Durbin (Cambridgen yliopisto), Rayan Chikhi (Pasteur Institute), sekä Mikko Arvas (Suomen Punaisen Ristin Veripalvelu).