Vem har en förhöjd risk att insjukna i diabetes och vilket migränläkemedel är lämpligt just för dig – algoritmer söker svaren i datamassor

Algoritmer söker redan efter gener som påverkar risken att insjukna, och de hjälper också oss utveckla exaktare läkemedel. Läkemedelsutvecklingen behöver allt fler sakkunniga som kan utveckla nya kalkylmetoder och algoritmer.

Under de senaste åren har man funnit hundratals förändringar i arvsmassan som påverkar vår risk att insjukna i exempelvis diabetes eller hjärt- och kärlsjukdomar. Men ännu vet man inte exakt vad som ligger bakom dessa genetiska faktorer eller hur de fungerar tillsammans.

– Att göra genetiken mer förståelig blir allt viktigare allteftersom läkemedelsbehandlingarna blir mer individuella. Målet är att välja de bästa läkemedlen och behandlingarna för patienten utgående från hurdana hens genvarianter är, berättar Matti Pirinen, biträdande professor i statistisk genomik.

Dessa förändringar i arvsmassan som påverkar vår risk att insjukna är vad Pirinen letar efter vid Institutet för molekylärmedicin i Finland, där han leder forskningsgruppen i beräkningsgenomik som en del av spetsenheten i sjukdomsgenetik. Forskningsgruppen tillämpar statistisk maskininlärning för populationsgenetik och för att analysera genomdata. I gruppen medverkar experter på matematik, statistik och bioinformatik.

Forskarna vid spetsenheten letar efter genvarianter som påverkar vår risk att insjukna i till exempel migrän, hjärt- och kärlsjukdomar, diabetes, inflammatoriska tarmsjukdomar och psykiska sjukdomar. Som material har de miljontals genmarkörer som samlats ur prover från tusentals människor.

Det skulle vara omöjligt att hitta någonting nyttigt i så här stora datamassor utan maskininlärningsalgoritmer som letar efter pålitliga data som upprepar sig.

– Vi kan till exempel leta efter fall som liknar en insjuknad individs fall både genetiskt och på andra vis. Sedan vill vi veta hurdana behandlingsformer som har eller inte har fungerat för de tidigare fallen. Att genomföra en sådan plan på ett systematiskt och effektivt sätt förutsätter maskininlärningsalgoritmer som kan klassificera komplicerade data och i framtiden även föreslå behandlingsmetoder för läkaren, berättar Pirinen.

Algoritmen finner riskgenerna

Just nu arbetar Pirinens grupp med två undersökningar. Den första genomförs i samarbete med Aarno Paloties grupp och dess material är prover från över 100 000 personer med migrän. Forskarna letar efter genvarianter som är vanligare hos dessa personer än hos friska individer. För detta ändamål har Christian Benner från Pirinens grupp utvecklat algoritmen FINEMAP, som kan välja variabler och leta efter biologiskt signifikanta genvarianter som påverkar risken att insjukna.

– Personer med en viss genvariant har en större riska att insjukna än personer med en annan variant. Men bara en liten del av de genvarianter som statistiskt sammanfaller med sjukdomar har en direkt biologisk länk till sjukdomens uppkomst. Med FINEMAP-algoritmen vill vi hitta genetiska faktorer som direkt påverkar sjukdomens biologi och kan påverkas med läkemedel, berättar Pirinen.

FINEMAP-algoritmen ger inga behandlingsrekommendationer, men den underlättar de tidiga skedena av läkemedelsutvecklarnas arbete genom att hitta genvarianter som är betydande för olika sjukdomar. Programvaran formar om flerdimensionella data till sannolikheter, som är lättare att tolka och kan användas för att bedöma den biologiska betydelsen av specifika genvarianter.

Kuva Finemap-algoritmin toiminnasta.

Exempel på hur FINEMAP-algoritmen fungerar. På bilderna syns ett område kring LIPC-genen i kromosom 15, och för varje punkt i genomet (x-axeln) syns en statistisk association (y-axeln) till nivåerna av HDL-kolesterol. Övre bilden: FINEMAP-algoritmens resultat. Nedre bilden: resultat av en grundläggande analys. FINEMAP föreslår att de påverkande punkterna är ett kodon som statistiskt visar sig vara en 190 gånger bättre kandidat än kodonet som föreslås av den grundläggande analysen

Den andra pågående undersökningen gäller den geografiska fördelningen av genvarianter som påverkar risken att insjukna i Finland.

– Vi vet flera specifika punkter i genomet som har en smärre verkan på någon sjukdom. Nu undersöker vi om det finns sådana skillnader i den geografiska fördelningen av dessa genvarianter i Finland som kunde förklara den geografiska variationen i hur många som insjuknar. Det är viktig information för att folksjukdomar ska kunna förebyggas och behandlas effektivt, säger Pirinen.

I den här undersökningen måste vi kombinera tusentals punkter i genomet till summavariabler och kontrollera att de verkligen beskriver risken att insjukna, inte enbart allmänna genetiska skillnader inom Finland. Även här behövs grundprinciperna för maskininlärning, såsom korsvalidering samt att skilja åt undervisnings- och testdata.

Även människan behövs fortfarande

Utan algoritmer skulle flera av framtidens mediciner aldrig kunna utvecklas. Men trots att algoritmen gör grundarbetet är det slutligen en läkare som tolkar resultaten och ser om maskinens förslag är vettiga. Pirinen tror att vi i framtiden kommer att se allt mer komplicerade sätt att utnyttja maskininlärning och artificiell intelligens för läkemedelsutveckling.

– Till exempel sammanlänkningen av data i hälsoregister och genomdata utvecklas snabbt. Vi håller på att förflytta oss från den grova uppdelningen frisk–sjuk till allt mer exakta beskrivningar av varje individs symptom och egenskaper. För detta behövs en ny generation av sakkunniga som kan hantera dessa mångfaldiga data med hjälp av maskininlärning och artificiell intelligens, säger Pirinen.

Hur fungerar algoritmen som går igenom generna?

FINEMAP-programvaran baserar sig på algoritmen shotgun stochastic search. Dess uppgift är att finna de centrala påverkarna, till exempel genvarianter, bland miljoner kandidater.

Det traditionella sättet skulle vara att låta algoritmen gå igenom all data, vilket är långsamt och inte alltid ens möjligt. Det som gör FINEMAP speciell är att den inte går igenom hela materialet. Trots det producerar den i praktiken samma information som en algoritm som lusläser allt.

Algoritmen framskrider bland kandidaterna med hjälp av två basfunktioner: bedömning av grannkandidater och val av ny kandidat.

I varje steg formar den grannkandidaterna genom att göra små ändringar i den nuvarande kandidaten. Den väljer en ny kandidat bland alla grannkandidater utgående från hur sannolikt det är att kandidaterna är just den betydande gruppen genvarianter som påverkar uppkomsten av en sjukdom.

Algoritmen upprepar denna idé tills den inte längre stöter på några lovande kandidater. I slutet av processen skriver algoritmen ut alla kandidater den stött på samt sannolikheten att just de är en betydande grupp genvarianter. Forskarna använder dessa sannolikheter när de bedömer vilka genvarianter som bör undersökas närmare.

FINEMAP-algoritmens metod kan tillämpas också på problem med val av variabler inom andra områden.

Finemap-algoritmin toiminta

Schema över shotgun stochastic search-algoritmens funktion.

Bildens källa: Christian Benner, Chris C.A. Spencer, Aki S. Havulinna, Veikko Salomaa, Samuli Ripatti, Matti Pirinen; FINEMAP: efficient variable selection using summary data from genome-wide association studies, Bioinformatics, Volume 32, Issue 10, 15 May 2016, Pages 1493–1501