FM Jarkko Toivonen väittelee perjantaina 22.11.2019 klo 12 Helsingin yliopiston Exactum-rakennuksen salissa D122 (Pietari Kalmin katu 5, 1. krs) aiheesta Modeling and Learning Monomeric and Dimeric Transcription Factor Binding Motifs. Vastaväittäjänä toimii professori Juho Rousu (Aalto-yliopisto) ja kustoksena professori Veli Mäkinen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.
Jarkko Toivosen väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Combinatorial Pattern Matching -ryhmässä tehtävää tutkimusta. Väitöskirjatyön ohjaajana on toiminut emeritusprofessori Esko Ukkonen (Helsingin yliopisto).
Monomeeristen ja dimeeristen säätelytekijöiden sitoutumispaikkojen mallinnus ja oppiminen
Jokaisen elämänmuodon toiminta ja lisääntyminen perustuu informaatioon, joka on talletettu soluissa olevaan DNA:han. DNA:n sisältämien geenien informaatio kopioidaan RNA:ksi, jota käytetään valmistusohjeena proteiineille, jotka ovat solujen ja niiden koneistojen rakennusaineita. Jokainen ihmisen solu, sukusoluja lukuunottamatta, sisältää saman DNA:n. Erityyppiset solut ovat täysin erinäköisiä ja toimivat eri tavalla kuin toiset solut. Esimerkiksi maksasolu on erimuotoinen ja -kokoinen kuin hermosolu. Tämä selittyy sillä, että eri solutyypeissä ovat aktiivisina osittain eri geenit kuin toisissa solutyypeissä. Ainoastaan aktiivisista geeneistä tuotetaan proteiineja. Eräs tapa vaikuttaa geenien aktiivisuuteen on säädellä geenien sisällön kopioimista RNA:ksi. Tietyt proteiinit, niin sanotut säätelytekijät, voivat vaikuttaa tähän kopioimiseen sitoutumalla geeniin liittyvään säätelyalueeseen. Täten on geenien säätelyn ymmärtämiseksi tärkeä pystyä selittämään säätelytekijöiden sitoutuminen DNA:han, ja näin myös löytää DNA:sta geenien säätelyyn liittyvät alueet.
Tässä väitöskirjassa pyritään oppimaan malleja, joilla voidaan kuvata DNA:n alueita, joihin geenien säätelytekijät sitoutuvat, ja arvioida tämän sitoutumisen voimakkuutta. Työssä keskitytään todennäköisyysmalleihin, jotka antavat jokaiselle kiinteän pituiselle DNA-sekvenssille sitoutumistodennäköisyyden. Käytetyt todennäköisyysmallit ovat epähomogeenisia nollannen tai ensimmäisen asteen Markov-ketjuja, joita tässä työssä kutsutaan vastaavasti positioriippuviksi todennäköisyysmatriiseiksi (PPM) tai vierekkäisten dinukleotidien malliksi (ADM). Työssä tutkitaan sekä monomeerista tapausta, jossa yksi säätelytekijä sitoutuu DNA:han vailla muita tekijöitä, että dimeeristä tapausta, jossa kaksi säätelytekijää sitoutuvat lähekkäisiin alueisiin. Jälkimmäisessä tapauksessa kaksi säätelytekijää voivat olla vuorovaikutuksessa keskenään.
Tässä tutkimuksessa käytetään kahta eri algoritmista lähestymistapaa sitoutumismallien oppimiseen: kombinatorista ja todennäköisyyksiin pohjautuvaa menetelmää. Kummatkin lähestymistavat käyttävät dataa, jonka oletetaan sisältävän runsaasti tutkittavan säätelytekijän sitoutumispaikkoja. Nämä sitoutumispaikat tulee paikantaa ja käyttää sitoutumismallin parametrien oppimiseen.
Työssä esiteltyjen algoritmien (SeedHam, MODER ja MODER2) toteutukset ovat vapaasti saatavilla GitHub-palvelimelta. Menetelmien validoinnissa havaittiin, että niiden tuottamat mallit sekä vahvistivat aiempia biologisia tuloksia että antoivat uusia biologisia näkökulmia sitoutumismalleihin ja niiden tiiviisiin esityksiin.
Väitöskirjan saatavuus
Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-5602-0.
Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: jarkko.toivonen@cs.helsinki.fi.