FM Miika Leinonen puollustaa väitöskirjaansa "Optical Maps in Genome Assembly and Long k-mer Extraction" perjantaina 24.5.2024 klo 13 Helsingin yliopiston Exactum-rakennuksen auditoriossa CK112 (Pietari Kalmin katu 5, pohjakerros). Vastaväittäjänä toimii professori Sven Rahmann (Universität des Saarlandes, Saksa) ja kustoksena professori Veli Mäkinen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.
Miika Leinosen väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Algorithmic Bioinformatics -ryhmän Algorithms for Biological Sequencing Data -tiimissä tehtävää tutkimusta. Väitöskirjan ohjaajana on toiminut yliopistonlehtori, dosentti Leena Salmela (Helsingin ylipisto).
Optiset kartat genomin kasauksessa ja pitkien k-meerien laskenta
Genomien rakenteesta saatavan tiedon hyödyntäminen on tiedostettu jo vuosikymmenten ajan. Tähän kuitenkin liittyy yhä haasteita, joista monet ovat peräisin sekvensointidatan luonteesta. Sekvensointilaitteilla näytteistä luettu data ei nimittäin ole täysin virheetöntä. Lisäksi koko genomia ei pystytä lukemaan kerralla. Sen sijaan merkkijonoina saatava data, sekvenssit, ovat genomin pätkiä, joiden sijaintia alkuperäisessä genomissa ei tunneta. Tässä tutkielmassa esittelemmekin menetelmiä, jotka ovat apuna sekvensointidatan otossa hyötykäyttöön.
Aloitamme tutkielman tutustumalla genomin kasaukseen, ja kuinka tätä prosessia voidaan kehittää siten, että sekvensseistä kasattu genomi on mahdollisimman todenmukaisesti. Esittelemme metodin, jossa genomin kasausta tuetaan käyttämällä hyödyksi optisia karttoja. Optisten karttojen avulla voimme arvioida sekvenssien keskeistä järjestystä, mikä mahdollistaa virheiden korjauksen genomin kasauksen aikana. Menetelmämme avulla kykenimme tuottamaan parempia tuloksia genomin kasauksessa verrattuna menetelmään, jossa optiset kartat eivät olleet käytössä.
Seuraavassa tutkielman osassa keskitymme k-meerien laskentaan. Usein sekvensointidatan sisältö esitetään ja käsitellään k-meereinä, eli k:n mittaisina merkkijonoina. Keskitymme tässä tutkielmassa pitkiin k-meereihin, sillä ne tarjoavat enemmän tietoa k-meerien alkuperäisestä sijainnista genomissa. Pitkät k-meerit ovat kuitenkin erityisen alttiita datassa esiintyville virheille. Siksi kehitimmekin menetelmän k-meerien laskentaan sekvensointidatasta, joka pystyy korjaamaan virheitä jo laskennan aikana. Ensimmäinen menetelmämme toimii hyvin sellaisen datan kanssa, jossa esiintyi vain merkkien korvausvirheitä. Seuraava menetelmämme ottaa huomioon myös merkkien lisäykset ja poistot. Pystyimme näiden menetelmien avulla löytämään enemmän oikeita k-meerejä verrattuna perinteiseen k-meerien laskentaprosessiin silloin kun dataa ei oltu korjattu etukäteen.
Viimeinen tutkielman osa käsittelee k-meerien tehokasta esitystapaa muistinkäytön kannalta. Kehitimme menetelmän pitkien k-meerien laskentaan hajautustaulun avulla siten, että k-meerien merkkijonoja ei tarvitse tallentaa muistiin kokonaisuudessaan. Menetelmämme avulla onnistuimme säästämään muistin käyttöä verrattuna hajautustauluihin, joissa jokaisen k-meerin täysi merkkijono tallennettiin muistiin.
Väitöskirjan saatavuus
Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-952-84-0130-8.
Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: miika.leinonen@helsinki.fi.