Artificiell intelligens lärdes visualisera stora datasamlingar

En ny AI-algoritm som utvecklats av forskarna vid FCAI försöker visualisera datasamlingar så tydligt som möjligt. Under projektet visade det sig att den lösning som algoritmen hade valt självständigt ofta var nära den lösning som människan typiskt hade valt.

Människohjärnan har en överraskande förmåga att visualisera olika egenskaper på basen av rent av enorma mängder information. Den förmågan utnyttjas bl.a. då man studerar stora datamängder, vars information måste reduceras till ett format som mänsklig intelligens kan förstå. Detta problem med reducering av dimensioner spelar en central roll vid visuell analys.

FCAI-forskare från Aalto-universitetet och Helsingfors universitet testade hur de mest kända metoderna för visuell analys fungerar och observerade att ingen av dem fungerade efter att mängden data hade vuxit enormt. LargeViz, t-SNE och UMAP, till exempel, kunde inte längre urskilja mycket starka signaler om grupperingen av observationer då det fanns hundratusentals observationer i datasamlingen.

Materialet som produceras av testerna för att hitta Higgs-partikeln, till exempel, innehåller över 11 miljoner mönstervektorer, som ger oss visualiseringar som påminner om en garnhärva.

– Därmed avslöjar de inga beaktansvärda egenskaper hos partiklarnas beteende i materialet, säger professorn i statistik Jukka Corander vid Helsingfors universitet.

– Denna upptäckt gav forskarna impulsen att utveckla nya metoder som utnyttjar samma grafikacceleratorsegenskaper som moderna AI-metoder för neuronnätsberäkning.  

AI-algoritmen som forskarna utvecklat strävar efter att visualisera materialet så att dess makroskopiska egenskaper, som är lätta för människan att observera och förstå, så som dataklungor, är så tydligt skönjbara som möjligt.

Inom projektet testades metoden av många frivilliga och det visade sig att lösningen som algoritmen valde självständigt ofta var mycket nära den som människan typiskt skulle ha valt: människointelligensen skulle placera dataklungorna av observationer, som enligt den egna åsikten liknar varandra, i tydligt åtskilda grupper. Då metoden tillämpades på materialet över Higgs-partikeln framhävdes tydligt materialets viktigaste egenskaper ur fysikens perspektiv.

– Det här är ett verkligt kvanthopp inom visuell analys. Förutom att vår metod är exponentiellt snabbare än tidigare metoder är den också mycket effektivare för utmanande tillämpningar, säger Corander.

Coranders grupp ledde också konstruktionen av ett nytt gränssnitt för att kunna utnyttja metoden så effektivt som möjligt inom applikationer för genomik.  På så vis kan användare analysera sitt material interaktivt genom att mata in det direkt i sin webbläsare. Fortsättningsstudien visualiserade med hjälp av globala bakterie- och SARS-COV2-material hur man snabbt kan observera upp till miljoner genom och finna viktiga egenskaper i dem med hjälp av detta verktyg.

Forskningen är ett samarbete mellan direktören för FCAI, professor Samuel Kaskis, och Jukka Coranders grupper. Som ledande forskare för projektet fungerade professor Zhirong Yang från NTNU-universitetet i Norge. Professor Yang disputerade vid Aalto-universitetet och har arbetat som forskare vid både Aalto och Coranders grupp vid Helsingfors universitet.