Gongsheng Yuan väittelee aiheesta Avainsanahaut ja tietokantakaavioiden muunnokset monimallisissa tietokannoissa

M.Sc. Gongsheng Yuan väittelee maanantaina 9.5.2022 aiheesta Avainsanahaut ja tietokantakaavioiden muunnokset monimallisissa tietokannoissa. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Unified Database Management Systems -ryhmässä tehtävää tutkimusta.

M.Sc. Gongsheng Yuan väittelee maanantaina 9.5.2022 klo 12 Helsingin yliopiston Physicum-rakennuksen salissa E204 (Gustaf Hällströmin katu 2, 2. krs) aiheesta Keyword Searches and Schema Transformation for Multi-Model Databases. Vastaväittäjänä toimii apulaisprofessori Georgios J. Fakas (Uppsala Universitet, Ruotsi) ja kustoksena professori Jiaheng Lu (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi. Väitöstilaisuutta voi seurata suorana verkkolähetyksenä osoitteessa https://helsinki.zoom.us/j/61970283776

Gongsheng Yuanin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Unified Database Management Systems -ryhmässä tehtävää tutkimusta. Väitöskirjatyön ohjaajana on toiminut professori Jiaheng Lu (Helsingin yliopisto).

Avainsanahaut ja tietokantakaavioiden muunnokset monimallisissa tietokannoissa

Datan monimuotoisuus edistää tietokantojen kehittymistä. Eräs vaikuttavimmista kehityskuluista on monimallisten tietokantojen synty, jossa keskeisenä ideana on hyödyntää yhtä ja yhtenäistä alustaa järjestetyn tiedon ja NoSQL-datan hallintaan. Tietokantayhteisö on kehittänyt useita monimallisia tietokantoja tukemaan erilaisia tietomalleja, kuten relaatio-, dokumentti- ja verkkotietomalleja. Näissä monimallisissa tietokannoissa on toteutettu monipuolisesti erilaisia tapoja tallentaa dataa ja suorittaa tietokantakyselyjä, mikä toisaalta aiheuttaa aloittelijoille vaikeuksia monimallisten tietokantojen käyttämisessä. Osittain vaikeus syntyy siitä, että monimallisiin tietokantoihin liittyville kyselykielille ei ole olemassa samanlaisia standardeja kuin SQL-relaatiotietokannoissa. Aloittelijoiden on siksi omaksuttava jokaisen monimallisen tietokannan kyselykieli erikseen. Näiden lisäksi käyttäjien täytyy hallita monimutkaisia ja dynaamisesti kehittyviä tietokantakaavioita, jotta he voivat muodostaa kyselyitä monimallisissa tietokannoissa.

Ottaen huomioon nämä haasteet esitämme ensimmäisen tutkimuskysymyksen: kuinka käyttää avainsanahakua vaihtoehtoisena tapana suorittaa kyselyitä monimallisissa tietokannoissa? Kun käyttäjät voivat hakea tietoa monimallisista tietokannoista käyttämällä yksinkertaisia avainsanoja, tämä vapauttaa heidät haasteesta oppia monenlaisia kyselykieliä ja tietokantakaavioita. Lisäksi verrattuna vakiintuneisiin ja markkinoita hallitseviin relaatiotietokantoihin monimalliset tietokannat tarvitsevat vielä aikaa, jotta niiden perusteet saadaan matemaattisesti pitäviksi sekä tehokkuus vastaamaan nykyajan vaatimuksia. Monimalliset tietokannat eivät kykene relaatiotietokantoja vastaavaan suorituskykyyn transaktioiden hallinnassa, tietokantakyselyiden optimoinnissa ja turvallisuudessa. Ottaen huomioon nämä haasteet esitämme toisen tutkimuskysymyksemme: kuinka käyttää relaatiotietokantoja vaihtoehtona monimallisille tietokannoille tallentamaan tietoa ja suorittamaan kyselyitä järjestetylle sekä NoSQL-datalle?

Ensimmäisen tutkimuskysymyksen osalta hyödynnämme kvanttifysiikkaan liittyvää todennäköisyyslaskennan formalismia, joka muotoilee ongelman vektoriavaruuksien avulla ja hyödyntää ei-klassisia todennäköisyyksiä. Tällöin löydetään k olennaisinta tulosta, jotka koostuvat useasta komponentista ja tietomallista. Tässä prosessissa sovellamme kvanttikielimallia (quantum language model) esittämään tapahtumia, esimerkiksi sanoja, aliavaruuksina. Hyödynnämme tiheysmatriiseja sekä kerättäessä informaatiota näiden aliavaruuksien yli että mitattaessa hajaantumista tietokantakyselyn ja mahdollisten tulosten välillä. Lisäksi kehitämme tiheysvektoreihin perustuvan menetelmän analysoimalla kvanttikielimallia. Tämä vähentää prosessin laskennallista vaativuutta. Laskiessamme tiheysvektoreita käytämme niin sanottua spatiaalista hahmonlouhintatekniikkaa, joka mahdollistaa superpositiotapahtumien identifioimisen, mikä parantaa menetelmän tarkkuutta. Käytämme näiden lisäksi pääkomponenttianalyysia parantaaksemme avainsanahakujen suorituskykyä monimallisissa tietokannoissa. Näin saamme avainsanahaut monimallisissa tietokannoissa toimimaan.

Lähestymme toista tutkimusongelmaa havaitsemalla, että monimallisen tiedon tallentaminen relaatiotietokantaan vaatii hyvän relaatiotietokantakaavion kehittämistä. Meidän täytyy ottaa huomioon yksiulotteisten relaatioiden ja monimallisen tiedon rakenteelliset erot. Aloitamme katsauksella nykyiseen aiheeseen liittyvään tutkimukseen, analysoimme olemassa olevia menetelmiä sekä kokoamme kirjallisuuskatsauksen aiheesta. Selvityksen perusteella voimme havaita, että nämä tutkimukset keskittyvät yhden tietomallin käsittelemiseen relaatiotietokannoissa eikä monimallista tietoa ole toistaiseksi käsitelty tutkimuksissa lainkaan. Vastataksemme tähän haasteeseen kehitämme vahvistusoppimiseen perustuvan menetelmän, jolla pystymme tuottamaan erinomaisen relaatiokaavion monimalliselle tiedolle sekä kyselyille vuorovaikutuksessa ympäristön kanssa. Jotta kykenemme soveltamaan tätä ideaa tietokantatutkimuksessa, määrittelemme tarkoituksiimme sopivan syötteen, tavoitteen, palkkiosysteemin, menettelytavan ja havainnot. Lisäksi esittelemme ns. Double Q-tables -algoritmin, joka auttaa koneoppimisprosessin vaativuuden vähentämisessä.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-8126-8.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: gongsheng.yuan@helsinki.fi