M.Sc. Jehad Aldahdooh puollustaa väitöskirjaansa "Building a comprehensive drug-target knowledge base using biomedical text mining" perjantaina 24.5.2024 klo 12 Helsingin yliopiston päärakennuksen salissa Tekla Hultin (F3003, Fabianinkatu 33, 3. krs). Vastaväittäjänä toimii professori Hong-Gee Kim (Seoul National University, Etelä-Korea) ja kustoksena professori Ville Mustonen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.
Jehad Aldahdoohin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen tohtoriohjelmassa ja lääketieteellisen tiedekunnan Network Pharmacology for Precision Medicine -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajina ovat toimineet apulaisprofessori Jing Tang ja vanhempi tutkija Ziaurrehman Tanoli (Helsingin ylipisto).
Kattavan lääkekohdetietokannan rakentaminen biolääketieteellisen tekstinlouhinnan avulla
Viime aikoina syöpälääkkeiden kehittämisen painopiste on siirtynyt sellaisten lääkkeiden kehittämiseen, jotka kohdistuvat erityisesti syöpäkudosten sääntelemättömiin proteiineihin. Huolimatta laajoista ponnisteluista syövän genomien sekvensoimiseksi ja mahdollisten lääkekohteiden tunnistamiseksi, kohdennettujen lääkkeiden teho kliinisissä tutkimuksissa on usein ollut pettymys epäjohdonmukaisten hoitovasteiden vuoksi. Tähän syynä on se, ettei ole olemassa kattavaa tietoa lääkeiden ja lääkekohteiden välisistä vuorovaikutuksista (drug-target interactions, DTI) eikä siitä, miten ne vaikuttavat hoidon tehoon ja mahdollisiin haittavaikutuksiin. Tämä väitöskirja pyrkii paikkaamaan tätä puutetta tarjoamalla ns. FAIRification-ratkaisun (Findable, Accessible, Interoperable and Reusable, FAIR) lääkeseulontakokeiden löydettävyyteen, saavutettavuuteen, yhteentoimivuuteen ja uudelleenkäytettävyyteen sekä rakentamalla tekstinlouhintatekniikoiden avulla kattavan lääkekohdetietokannan, mikä on merkittävää täsmälääketieteen edistämisen kannalta.
Tämän tutkimuksen korkean tason tavoite on jaettu kolmeen päätehtävään. Ensinnäkin olemme kehittäneet tavan tehdä kemoherkkyysmäärityksiä minimalisten tiedon perusteella, ns. MICHA-putken (Minimial Information for Chemosensitivity, MICHA), joka mahdollistaa lääkeseulontakokeiden löydettävyyden, saavutettavuuden, yhteentoimivuuden ja uudelleenkäytettävyyden. MICHA-putki muodostuu verkkopalvelimesta ja tietokannasta, jotka yhdistävät kemiallisiin yhdisteisiin liittyvät kommentit mukaan lukien niiden kemialliset rakenteet, kohteet ja taudin tunnusmerkit. Ratkaisu helpottaa myös solulinjanäytteiden, määritysprotokollien ja kirjallisuusviitteiden kommentointi kuratoitujen luetteloiden avulla.
Toiseksi tartuimme haasteeseen käsitellä lääkekehitystutkimuksessa julkaistua valtavaa määrää tieteellisiä artikkeleita. Vaikka tekstinlouhintatekniikoita on laajalti sovellettu yhteyksien löytämiseen muuntyyppisistä tiedoista, kuten proteiinin välisistä vuorovaikutuksista sekä taudin ja geenien välisestä vuorovaikutuksista, on lääkkeiden ja lääkekohteiden välisiä vuorovaikutuksia kuvaavien artikkeleiden automaattisesta tunnistamisesta on tehty vain vähän tutkimuksia. Tämän saavuttamiseksi käytimme BERT-kielimallia (Bidirectional Encoder Representations from Transformers, BERT) luokittelemaan artikkeleita, jotka mahdollisesti sisältävät DTI-tietoja. Lisäksi pyrimme ennustamaan DTI-tietojen määritysmuodon, koska DTI-tiedot liittyvät läheisesti niiden tuottamiseen käytettyyn määritysmuotoon. Uusi menetelmämme tunnistaa merkittävän määrän artikkeleita (0,6 miljoonaa), jotka eivät aiemmin sisältyneet julkisiin DTI-tietokantoihin. Saavutimme suuren tarkkuuden sellaisten artikkeleiden tunnistamisessa, joissa oli kvantitatiivisia lääkekohdeprofiileja, ja osoitimme määritysmuotojen ennustamisessa olevan parantamisen varaa.
Lopuksi tutkimme lääkkeiden ja lääkekohteiden vuorovaikutusten eristämisen haastetta tarkastelemalla sitä entiteettien välisten suhteiden eristämisenä, jossa hyödynnetään kehittyneitä esikoulutettuja kielimalleja, kuten BERT. DTI-tietojen eristämisen tarkkuuden parantamiseksi sisällytimme ratkaisuun erillisiä kokonaisuusstrategioita. Ensimmäinen strategia yhdistää ennalta koulutetun kielimallin konvoluutiohermoverkkoihin (Convolutional Neural Networks, CNN), jotta entitieettien väliset suhteet havaittaisiin tehokkaammin. Samanaikaisesti toinen strategiamme yhdistää Entrez Gene -tietokannasta johdetut geenikuvaukset vertailevasta toksikogenomiikkatietokannasta (CTD) saatujen kemiallisten kuvausten kanssa. Huomattavaa on, että tämä kuvauksia hyödyntävä kokonaisuusmalli osoittautui ylivoimaiseksi ja sai kiitettävän F1-tuloksen 80,6 piilotetussa DrugProt-piilotestisarjassa. Sen suorituskyky on huomattavasti parempi kuin muiden kilpailevien mallien. Lisäksi analyysimme, jossa verrattaan geenitekstikuvauksia sekä Entrez Gene- että UniProt-tietokannoista, antaa arvokasta tietoa niiden vaikutuksista eristämisen onnistumiseen.
Tämän tutkimuksen merkitys ulottuu sen teknisiä lisäyksiä pidemmälle. Kun lääkkeiden ja lääkekohdeiden yhteisvaikutuksia kuvaavien tietojen tarkkuus ja syvyys parantuu, on tutkimuksella potentiaalisia vaikutuksia sekä lääkkeiden tehon että haittavaikutusten ennustamisen ja ymmärtämisen parantamiseen syövän hoidossa. Se luo pohjan tarkemmille ja yksilöllisemmille terapeuttisille strategioille, jotka ovat henkilökohtaisen lääketieteen kulmakivi. Viime kädessä tämän tutkimuksen menetelmillä ja tuloksilla on potentiaalia vaikuttaa uusien lääkkeiden onnistuneeseen kehittämiseen ja olemassa olevien lääkkeiden käyttötarkoituksen muuttamiseen, mikä korostaa tutkimuksen merkitystä käynnissä olevassa taistelussa syöpää vastaan.
Väitöskirjan saatavuus
Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-952-84-0128-5.
Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: jehad.aldahdooh@helsinki.fi.