Yuxing Chen väittelee aiheesta Suorituskyvyn virittäminen ja kyselyjen optimointi Big Datan hallinnassa
M.Sc. Yuxing Chen väittelee torstaina 2.12.2021 aiheesta Suorituskyvyn virittäminen ja kyselyjen optimointi Big Datan hallinnassa. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Unified Database Management Systems -ryhmässä tehtävää tutkimusta.

M.Sc. Yuxing Chen väittelee torstaina 2.12.2021 klo 12 Helsingin yliopiston Chemicum-rakennuksen auditoriossa A129 (A.I. Virtasen aukio 1, 1. krs) aiheesta Performance Tuning and Query Optimization for Big Data Management. Vastaväittäjänä toimii apulaisprofessori Alberto Abelló (Universitat Polytechnica de Catalunya, Espanja) ja kustoksena professori Jiaheng Lu (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi. Väitöstilaisuutta voi seurata suorana verkkolähetyksenä osoitteessa https://helsinki.zoom.us/j/63497292553.

Yuxing Chenin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Unified Database Management Systems -ryhmässä tehtävää tutkimusta. Väitöskirjatyön ohjaajana on toiminut professori Jiaheng Lu (Helsingin yliopisto).

Suorituskyvyn virittäminen ja kyselyjen optimointi Big Datan hallinnassa

Nykypäivänä, kun dataa hyödyntävät sovellukset ovat merkittävästi lisääntyneet, myös heterogeenisen datan määrä kasvaa jatkuvasti. Datan ominaisuuksia kuvataan niin sanottujen neljän V:n avulla: volume (datan koko), variety (datan monimuotoisuus), velocity (datan kasvun ja muutoksen nopeus) ja veracity (datan tarkkuus). Tässä väitöskirjatyössä käsittelemme näistä datan kokoon ja datan monimuotoisuuteen liittyviä haasteita. Eräs datan kokoon liittyvistä haasteista on hyödyllisen informaation koostaminen ja luotettavien ennusteiden tekeminen laajoista datajoukoista. Tästä haasteesta ja sen sovelluksista ovat kiinnostuneet monet alat kuten akateemiset tutkijat, yrityksissä toimivat datatieteilijät sekä yritysten asiakkaat ja osakkeenomistajat. Heterogeenisen datan monimuotoisuuteen liittyviä haasteita taas ovat tiedon tehokas tallentaminen, kerääminen, prosessointi, kyselyiden suorittaminen ja analysointi.

Tässä väitöskirjatyössä laajennamme tapoja, joilla datan kokoon ja monimuotoisuuteen liittyvien haasteiden ratkaisujen tehokkuutta voidaan optimoida. Datan kokoon liittyvien haasteiden optimoinnissa tähtäämme niin sanottujen big data -systeemien tehokkuuden parantamiseen. Tässä osassa hyödynnämme niin sanottua vaativuusmallia (cost-model) ja kolmiointia (triangulation) tilanteissa, joissa datan hallintaan käytettävistä systeemeistä ei ole kerätty ennakkotietoja. Näillä menetelmillä mallinnamme systeemien tehokkuutta. Nämä lähestymistavat johtavat luotettaviin ennusteisiin systeemien suorituskyvystä.

Datan monimuotoisuuteen liittyvissä ongelmissa tähtäämme liitoskyselyiden (join queries) optimointiin. Tämä osa työtä edustaa verrattain pientä tutkimushaaraa, jossa tutkitaan liitoskyselyiden suorittamista monimuotoisten heterogeenisten datajoukkojen yli. Tässä tapauksessa keskitymme liitoskyselyiden suorittamiseen relaatioiden ja puumuotoisen tiedon välillä. Tutkimme liitoskyselyiden tulosten kokoon liittyviä ylärajoja sekä optimaalisia liitoskyselyiden suoritusalgoritmeja vaativimmissa tapauksissa. Vertaamme näitä lähestymistapoja myös vastaaviin relaatioiden liitoskyselyiden suoritustapoihin.

Parametrien määrittämisen suhteen kehitämme tässä väitöskirjatyössä vaatimuksiin perustuvan mallin Spark-työmäärille. Hyödynnämme mallissa Monte Carlo -simulaatiota, jolloin saavutetaan suorituskyvyltään tehokas algoritmi. Erityisesti hyödynnämme vain pientä osaa resursseista ja datasta ennustaaksemme suurten klustereiden ja datajoukkojen keskenään riippuvuussuhteessa olevaa suoritustehoa jopa tilanteissa, joissa data on painottunut väärin tai systeemi kärsii ajon aikaisista poikkeamista. Lisäksi tarkastelemme tässä työssä tiedon verkottumisen ja levynkäytön ylärajoja, jotta systeemi suoriutuu paremmin tiedon siirrännän (I/O) suhteen rajoitetuista työmääristä. Tämän jälkeen kehitämme d-simplekseille perustuvan menetelmän, joka hyödyntää Delaunay-kolmiointia (Delaunay Triangulation). Verrattuna muihin musta laatikko -tyyppisiin koneoppimisalgoritmeihin d-simplekseihin perustuva algoritmi hyödyntää paloittain lineaarisia regressiomalleja, jotka voidaan laskea nopeammin ja joiden ennustustarkkuus on parempi. D-simplekseihin perustuvaa algoritmia käytettäessä voimme hyödyntää myös mukautuvaa näytteiden keräämistä datasta. Tällöin näytteiden vähäisestä määrästä huolimatta ennustukset ovat täsmällisiä.

Tässä väitöskirjatyössä tutkitaan myös optimaalista tapaa suorittaa liitoskysely relaatioiden ja puumuotoisen tiedon välillä suorituskyvyn kannalta vaativimmassa tapauksessa. Aloitamme aiheen tutkimisen tarkastelemalla konjunktiivisia kyselyitä monimallisessa datassa, joka koostuu relaatioista ja puumuotoisesta tiedosta. Määrittelemme näihin kyselyihin liittyvän tutkimusongelman formaalisti. Osoitamme, että laskennallisen vaativuusteorian näkökulmasta konjuktiivisiin kyselyihin liittyvän koon ylärajan laskeminen kuuluu luokkaan NP, kun se lasketaan kyselyn lausekkeen perusteella. Kehitämme vaativimmassa tapauksessa optimaalisesti toimivan liitosalgoritmin nimeltään CMJoin. Tietyissä tilanteissa CMJoin suorittaa konjunktiivisen kyselyn kiinnitetyn ylärajan puitteissa.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio on saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-7740-7.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: yuxing.chen@helsinki.fi.