Zafar Hussain väittelee komentosyntaksin oppimisesta ja samankaltaisuuksien havaitsemisesta kyberturvallisuuden parantamiseksi

FM Zafar Hussain väittelee perjantaina 14.2.2025 aiheesta Komentosyntaksin oppiminen ja samankaltaisuuksien havaitseminen kyberturvallisuuden parantamiseksi. Väitöskirjatyö on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Empirical Software Engineering -ryhmässä tehtävää tutkimusta.

FM Zafar Hussain puollustaa väitöskirjaansa "Learning Command Syntax and Detecting Similarities for Enhanced Cybersecurity through Data Analysis" perjantaina 14.2.2025 klo 13 Helsingin yliopiston Exactum-rakennuksen auditoriossa B123 (Pietari Kalmin katu 5, 1. kerros). Vastaväittäjänä toimii professori Juha Röning (Oulun yliopisto) ja kustoksena professori Jukka K. Nurminen (Helsingin yliopisto). Väitöstilaisuus pidetään englanniksi.

Zafar Hussainin väitöskirja on osa Helsingin yliopiston tietojenkäsittelytieteen osastolla ja Empirical Software Engineering -ryhmässä tehtävää tutkimusta. Väitöskirjan ohjaajina ovat toimineet professori Jukka K. Nurminen (Helsingin yliopisto) ja professori Tommi Mikkonen (Jyväskylän yliopisto).

Komentosyntaksin oppiminen ja samankaltaisuuksien havaitseminen kyberturvallisuuden parantamiseksi data-analyysin avulla

Kyberturvallisuudessa on keskeistä erottaa tarkasti lailliset ja haitalliset komentorivikäskyt tietojärjestelmien suojaamiseksi. Tämä tutkimus käsittelee komentojen syntaksin ja rakenteen analysoinnin monimutkaista haastetta, joka vaikeutuu komentomuotojen monimuotoisuuden ja jatkuvan kehittymisen vuoksi. Komentojen syntaksin ymmärtäminen on tärkeää haitallisten toimintojen tunnistamiseksi, mutta yleisesti hyväksytyn ja vakiintuneen syntaksin puute tekee tehtävästä erityisen haastavan. Hyödyntäen kyberturvallisuusorganisaatioiden käytettävissä olevaa isoa tietomäärää ehdotamme ratkaisuksi hybridilähestymistapaa, joka yhdistää sääntöperusteiset järjestelmät ja koneoppimismallit komentojen samankaltaisuuksien havaitsemiseksi. Komentojen syntaksin ja rakenteen ymmärtämisen syventämiseksi tutkimme deterministisiä ja stokastisia menetelmiä, kuten säännöllisiä lausekkeita, Markovin malleja ja suuria kielimalleja.

Komentorivikäskyjen syntaktisten ja semanttisten merkitysten ymmärtämiseksi kehitimme sääntöpohjaisen järjestelmän, joka hyödynsi asiantuntijoiden näkemyksiä. Se luokitteli komentorivikäskyt samanlaisiin ja ei-samanlaisiin luokkiin. Koulutimme logistisen regressiomallin sekä kaksi syväoppimismallia ja arvioimme niiden suorituskyvyn käyttäen Matthewsin korrelaatiokerrointa (MCC). Logistinen regressiomalli saavutti MCC-pisteen 0,85, kun taas molemmat syväoppimismallit saivat yli 0,90 pistettä ennakoimattomalla datalla. Ehdottamamme hybridilähestymistapa toimii hyvin komentojen samankaltaisuuksien havaitsemisessa.

Komennon syntaksin ja rakenteen syvällisemmäksi oppimiseksi kehitimme kolmea lähestymistapaa: kielimallin, joka oli hienosäädetty komentoihin, toisen asteen Markovin mallin sekä säännöllisiin lausekkeisiin perustuvan järjestelmän. Arviointi osoitti, että hienosäädetty kielimalli oli ylivoimainen verrattuna sekä Markovin malliin että säännöllisiin lausekkeisiin perustuvaan järjestelmään. Säännöllisiin lausekkeisiin perustuva lähestymistapa ei onnistunut käsittelemään komentoihin liittyviä harvinaisia arvoja, ja sillä ei ollut sopivia lausekkeita, jotka vastaisivat näitä satunnaisia arvoja. Vaikka Markovin malli paransi jonkin verran satunnaisten tunnisteiden havaitsemista, sillä oli edelleen vaikeuksia tunnistaa monimuotoisia malleja. Hyödyntämällä klusterointialgoritmeja, kuten DBSCAN, HDBSCAN ja OPTICS, onnistumme luokittelemaan komentorivikäskyt niiden syntaktisten samankaltaisuuksien perusteella paljastaen kielimallin kyvykkyyden ymmärtää sekvenssejä ja tunnistaa syntaksia vähäisillä virheillä. Komentojen syntaksin tilastollinen analyysi yhdessä BERTScore-arvioiden kanssa tuotti tulokset, jotka ylittivät 0,90 tarkkuuden. Nämä vahvat tulokset vahvistavat hienosäädetyn kielimallin korkean tarkkuuden ja tehokkuuden komentojen syntaksin oppimisessa. Tämä malli on erityisen arvokas kyberturvallisuusorganisaatioille, jotka käsittelevät miljoonia komentoja, sillä se voidaan kouluttaa ja uudelleenkouluttaa massiivisilla tietojoukoilla, jotka kattavat kaikki mahdolliset komennot. Vaikka muut menetelmät suoriutuivat kohtuullisesti, niillä on selviä rajoituksia: säännölliset lausekkeet vaativat manuaalista työtä ja Markovin malli on vaikeuksissa pitkien lausekkeiden käsittelyssä, joten kielimalli on niitä kestävämpi ratkaisu.

Tutkimuksemme edistää kyberturvallisuutta, erityisesti konteksteissa, joissa vaaditaan syvällistä komentojen syntaksin ymmärtämistä. Tutkittuja menetelmiä hyödyntämällä voidaan parantaa kykyä erottaa lailliset ja haitalliset komennot, määritellä käyttäjäryhmiä yksilöllisten syntaksirakenteiden avulla sekä tunnistaa yleisiä komentoyhdistelmiä. Komentojen analysointikyvyn parantaminen edistää tutkimuksemme avulla entistä luotettavampien järjestelmien kehittämistä, jotka ovat paremmin varustautuneita suojaamaan laajalta uhkakirjolta. Nämä edistysaskeleet auttavat vahvistamaan kyberturvallisuusmenetelmiä ja vähentämään haitallisten toimijoiden aiheuttamia riskejä.

Väi­tös­kir­jan saa­ta­vuus

Väitöskirjan elektroninen versio tulee olemaan saatavilla Helsingin yliopiston avoimessa julkaisuarkistossa Heldassa osoitteessa http://urn.fi/URN:ISBN:978-952-84-0768-3.

Painettuja väitöskirjoja voi tiedustella väittelijältä itseltään: zafar.hussain@helsinki.fi.