Arpit Merchant väittelee aiheesta Solmujen upotusten sovellukset graafien oppimisessa ja louhinnassa

M.Sc. Arpit Merchant väittelee torstaina 24.8.2023 aiheesta Solmujen upotusten sovellukset graafien oppimisessa ja louhinnassa. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Algorithmic Data Science -ryhmässä tehtävää tutkimusta.

M.Sc. Arpit Merchant puollustaa väitöskirjaansa "Applications of Node Embeddings to Learning and Mining on Graphs" torstaina 24.8.2023 klo 13 Helsingin yliopiston Physicum-rakennuksen auditoriossa E204 (Gustaf Hällströmin katu 2, 2. krs). Vastaväittäjänä toimii apulaisprofessori Kiran Garimella (Rutgers University, Yhdysvallat) ja kustoksena apulaisprofessori Michael Mathioudakis (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Arpit Merchantin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Algorithmic Data Science -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajana on toiminut apulaisprofessori Michael Mathioudakis (Helsingin yliopisto).

Solmujen upotusten sovellukset graafien oppimisessa ja louhinnassa

Graafit ovat keskeisessä roolissa monilla aloilla sosiaalisten verkostojen rakenteen analysoinnista biologisten verkostojen molekyylimallien tunnistamiseen ja viestintäjärjestelmien suorituskyvyn optimointiin. Viime vuosina solmujen upotukset, eli graafin solmujen vektoriesitykset, ovat muodostuneet tehokkaiksi työkaluiksi graafien paikallisten ja korkeamman asteen topologisten suhteiden tarkkaan tunnistamiseen. Rinnakkaislaskennan ja syväoppimisen kehityksen myötä solmuattribuuttien yhdistäminen vierekkäisiin tietoihin upotusten rakentamiseksi esimerkiksi graafisten neuroverkkomallien (tai lyhyesti GNN:ien) avulla on johtanut niiden yleistymiseen sovelluksissa, kuten solmujen luokittelussa ja linkkien ennustamisessa. Vaikka uusia arkkitehtuureja otetaan jatkuvasti käyttöön kontekstikohtaisten tehtävien huipputason parantamiseksi, on ymmärryksemme perussuunnitelmien laajemmasta yleistettävyydestä ja hyödyllisyydestä edelleen epätäydellistä. Siksi upotuspohjaisten oppimisalgoritmien analysointi erilaisten graafien ominaisuuksien, kuten homofilian ja luokkaepätasapainon, vaikutuksesta niiden suorituskykyyn, suurien tietojoukkojen käsittelyn skaalautuvuuteen, hyödyllisyyteen klassisissa tehtävissä, kuten graafin ominaisuuksien arvioinnissa, ja niiden eettisistä vaikutuksista arkaluontoisilla aloilla, kuten lainahakemusten käsittelyssä, on ratkaisevan tärkeää.

Tässä opinnäytetyössä pyrimme korjaamaan näitä puutteita luonnehtimalla upotusten monipuolisuutta graafien oppimisessa ja louhinnassa. Tätä tarkoitusta varten esitämme uusia malliriippumattomia tekniikoita upotusten mukauttamiseksi neljään konkreettiseen tehtävään, nimittäin solmujen luokitteluun, etäisyyden arviointiin, graafien yhteenvetoon ja oikeudenmukaisen esityksen oppimiseen. Ensinnäkin suunnittelemme JANE-algoritmin sisällyttämään tunnistetiedot attribuutteja sisältävien graafien upotuksiin, jotta voimme joustavasti mukautua graafeihin, joissa esiintyy matalan tason, keskitason ja korkean tason homofiilia. Toiseksi ehdotamme kehyksiä tarkoille ja likimääräisille oraakkeleille analysoidaksemme upotusten hyödyllisyyttä graafien etäisyyksien arvioinnissa. Kolmanneksi esittelemme spektrialgoritmit, SpecSumm ja Ocsa, joilla voidaan rakentaa upotuksista tiivistelmiä vierekkäisyyksien rekonstruoimiseksi, visualisoimiseksi ja kolmioiden arvioimiseksi. Lopuksi kvantifioimme kompromissin solmuluokituksen algoritmisen oikeudenmukaisuuden ja tarkkuuden välillä ja suunnittelemme kaksi interventiota, PFR-AX ja PostProcess, vähentääksemme graafin solmuihin kohdistuvia algoritmisia eroja ja eriarvoisuutta suojattujen ominaisuuksien, kuten sukupuolen, iän jne., perusteella. Kokeilemalla 29 tietojoukkoa kuudella eri alueella näissä neljässä tehtävässä arvioimme laajasti algoritmiemme suorituskykyä ja vertaamme tuloksiamme viimeisimpien tekniikoiden perusarvoihin.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston e-thesis-palvelussa osoitteessa http://urn.fi/URN:ISBN:978-951-51-9358-2.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: arpit.merchant@helsinki.fi.