Anton Björklund disputerar om ämnet Begriplig maskininlärning för naturvetenskaper

FM Anton Björklund disputerar fredagen den 31.5.2024 om ämnet Begriplig maskininlärning för naturvetenskaper. Doktorsavhandlingen är en del av forskning på avdelningen för datavetenskap och i forskningsgruppen Exploratory Data Analysis vid Helsingfors universitet.

FM Anton Björklund försvarar sin doktorsavhandling "Interpretable and explainable machine learning for natural sciences" fredagen den 31.5.2024 kl. 13 i Helsingfors universitet, Exactum, auditorium B123 (Pehr Kalms gata 5, 1. vån). Opponent är professor BenoÎt Frénay (Université de Namur, Belgien) och kustos professor Kai Puolamäki (Helsingfors universitet). Disputationen hålls på engelska.

Anton Björklunds doktorsavhandling är en del av forskning på avdelningen för datavetenskap samt i forskningsgruppen Exploratory Data Analysis vid Helsingfors universitet. Hans handledare har varit professor Kai Puolamäki (Helsingfors universitet).

Begriplig maskininlärning för naturvetenskaper

Maskininlärning och artificiell intelligens spelar en allt större roll i dagens värld. En maskininlärningsmodell är en matematisk funktion vars parametrar har automatiskt justerats för att passa en datamängd. Svåra uppgifter tenderar kräva större och mera komplexa modeller som är svåra eller rentav omöjliga att följa. Dock finns det flera användningsområden där det är viktigt att kunna förstå och lita på processer som leder till beslut. Framförallt beslut som berör mänskliga liv och hälsa måste kunna berättigas. I denna avhandling används maskininlärning för vetenskapliga ändamål. Här är förståelse viktigt både för att hitta ny kunskap och för att jämföra med existerande kunskap.

Vi kan naturligtvis välja maskininlärningsmetoder som direkt går att tolka. Förutsatt att vi också förstår det material vi ger maskininlärningsmodellen kan vi manuellt följa hela beslutsprocessen. En nackdel är att stora och komplexa modeller ofta ger bättre resultat. För sådana modeller använder vi metoder som extraherar mera information från modellerna än bara resultaten. Den informationen kan förklara resultaten men förklaringarna är ofta förenklade och sällan heltäckande. Denna avhandling behandlar två tolkbara maskininlärningsmetoder och två förklaringsmetoder.

Målet med robust regression är att träna välfungerande modeller även då datamängden innehåller fel. Källan till felen kan exempelvis vara söndriga mätare eller sällsynta katastrofer. Avhandlingen behandlar en robust metod som ignorerar de avvikande data punkterna.

Matrisfaktorisering används för att spjälka upp en stor matris i två mindre matriser. Genom välvalda begränsningar kan vi styra uppspjälkningen mot verkliga mönster. I avhandlingen identifierar vi källor av luftföroreningar och hur de förändras med tiden.

Lokala förklaringar fokuserar på hur maskininlärningsmodeller behandlar enskilda datapunkter. Ett vanligt tillvägagångssätt är att skapa enkla modeller som lokalt approximerar den komplexa modellen. Avhandlingen utvecklar metoder som endast använder existerande data punkter. Detta bevarar underliggande mönster i datamängderna, såsom fysikens lagar.

Slutligen visualiserar vi flera lokala förklaringar samtidigt. Denna visualisering ger en helhetssyn över en komplex modells olika beteenden. I avhandlingen räcker det ofta med ett fåtal enkla modeller för att motsvara en komplex modell.

Tillgänglighet av avhandling

Avhandlingens elektronisk version är tillgänglig i Helsingfors universitets öppna publikationsarkiv Helda via länken http://urn.fi/URN:ISBN:978-952-84-0144-5

Tryckta exemplar av avhandlingen finns tillgängliga på begäran från Anton Björklund: anton.bjorklund@helsinki.fi