Forskare river ner språkbarriärer och banar väg för automatiska nyheter - målet är en mångsidigare världsbild

I samarbete med fem andra universitet och STT utvecklar Helsingfors universitet nyhetsautomation och informationssökning ur textmassor.

Hur skulle man automatiskt kunna hitta relevant information ur nyheter på olika språk? Hur kan vi programmera en maskin att producera nyheter smidigt, och är teknologin tillämpbar på små språkområden som Finland?

Det är bland annat dessa utmaningar som Helsingfors universitet med samarbetspartner tar itu med nästa år när EU:s nya EMBEDDIA-forskningsprojekt kör igång. Projektet varar i tre år och ska utveckla metoder för automatisk textproduktion.

Ett av målen med projektet är att göra det allt lättare att hitta information i webbnyheter – oberoende av språket.

– När man kopplar ihop nyheter på olika språk med varandra uppstår en mångsidigare bild av ämnet. Samtidigt blir det möjligt att jämföra hur man talar om samma sak på olika språk och i olika medier. Målet är att information allt bättre ska kunna ställas till allas förfogande, säger professor i datavetenskap Hannu Toivonen, vars forskningsgrupp deltar i projektet.

I projektet deltar också Svenska social- och kommunalhögskolan vid Helsingfors universitet, med fokus på medieföretagens behov.

– Det här projektet öppnar för möjligheter att utveckla helt nya lösningar för medier. Det är också viktigt att försäkra sig om att det finns ett reellt behov av dessa lösningar, säger Carl-Gustav Lindén, docent och forskare i medier och journalistik.

En maskin orkar rapportera om varje match

Många mediehus använder redan nu nyhetsautomation för att producera nyheter om sport och val. Maskiner klarar av att skapa nyheter så länge de består av formbundna data. Till exempel är en hockeymatch trevligt regelbunden ur maskinens synvinkel: matchen består av tre perioder och slutresultatet är ett tydligt antal mål.

Enligt Toivonen är det nyttiga med automatiserade nyheter att man med hjälp av dem kan skapa väldigt många nyheter utgående från liknande data. Maskinen kan skapa en nyhet om en lokal hockeymatch även om läsekretsen inte består av mer än en handfull personer. 

– I ett sådant fall kan den enskilda nyheten ha en liten läsekrets, men när nyheterna är flera till antalet får man ett mångsidigt utbud och kan uppfylla särskilda behov, säger Toivonen.

Tills vidare grundar sig alstren på data som maskinen ordnar, och handlar främst om val, sport och liknande. Vägen är ännu lång innan maskiner börjar producera djupgående personporträtt eller nyhetsanalyser, eftersom variationen i språket och innehållet tillsvidare är för stor.

– Journalisterna behövs fortfarande. Arbetets karaktär kan ändras, och metaredaktionella element kommer in i bilden. Journalisten kan till exempel berätta för maskinen hur den ska rapportera om olika ämnen, säger Toivonen.

– Den här utvecklingen berör kanske inte alla journalister direkt, men av alla krävs det förståelse av i vilken riktning medievärlden är på väg och hurdana lösningar den nya teknologin öppnar för, kompletterar Lindén.

Metaforer ska ge kreativare text

Inom EMBEDDIA-projektet fokuserar Toivonens grupp på hur maskiner skulle kunna producera automatiska nyheter så effektivt som möjligt och på så många språk som möjligt. Undersökningen här utgör en fortsättning på gruppens tidigare forskning om automatiserade nyheter.

Med den teknik som nu finns till förfogande producerar maskiner redan text om till exempel valresultat rätt smidigt, men ett speciellt levande språk klarar de inte av att åstadkomma. Nu försöker gruppen göra både textens strukturer och ordval kreativare.

– Till exempel kan man till en viss utsträckning plocka metaforer i bitar och lära ut dem till maskiner. På så sätt kan vi försöka ta fram ett lite mångsidigare språkbruk, säger Toivonen.

Läs mer om projektet på STT:s webbplats (på finska).

Gemensamt projekt för universiteten och mediehusen

Helsingfors universitetet medverkar i forskningsprojektet EMBEDDIA, som kör igång 2019 och utvecklar nyhetsautomation över språkgränser.

Projektet varar i tre år och finansieras av Europeiska unionens projekt Horisont 2020. Helsingfors universitets andel av finansieringen är ca 450 000 euro.

Utöver Helsingfors universitet deltar fem andra europeiska universitet i EMBEDDIA-projektet. Också nyhetsbyrån STT och tre andra företag inom mediebranschen medverkar.

Namnet EMBEDDIA har sitt ursprung i maskininlärningsmetoder som kallas för ordinbäddningsmodeller. Ordinbäddningsmodeller granskar i hurdana miljöer ord förekommer. De flerspråkiga ordinbäddningsmodeller som utvecklas inom ramen för projektet hjälper maskiner att hitta samband mellan texter på olika språk.