Digitala metoder måste vara teoretiskt motiverade

Kaius Sinnemäki är språktypolog och undersöker med statistiska metoder och med hjälp av öppna databaser och språkkataloger hur substantivens kasus och genusmarkörer kan interagera och vilka typer av universalier det finns i interaktionerna.

I finskan markeras inte genus. I de indoeuropeiska språken finns det två eller tre genusmarkörer, och i många språk som talas i Afrika finns det fem eller till och med fler. En stor del av världens språk har samma drag som finskan – avsaknaden av genusmarkörer

Det här är exempel på de språktypologiska drag som Finlands Akademis forskardoktor Kaius Sinnemäki undersöker.

– Jag studerar språkliga universalier, dvs. vilka gemensamma tendenser det finns i världens språk. Ett drag är genusmarkering och de klassifikatorer för substantiven som de är nära förenade med, något som bl.a. förekommer i många språk i Sydostasien och Sydamerika. Avsikten är att göra generaliseringar utifrån tiotals, ibland upp till hundratals språk. Den här typen av humanistisk forskning gör man vid sin dator, inte ute på fältet. Metoderna kommer från statistiken.

Databaser och språkkataloger

När föremålet för forskarens intresse i princip är världens alla tusentals språk, är det enkelt att förstå att olika digitala öppet tillgängliga databaser och språkkataloger är en oersättlig hjälp för forskaren.

– En mycket viktig källa för språktypologen är The World Atlas of Language Structures (WALS) som har funnits på nätet sedan 2008.  Atlasen har information om över 2 600 språk. Om en kärngrupp på omkring 200 språk finns det närmare 200 drag registrerade, om andra språk färre, men om alla finns det någon form av information i databasen. Databasen gör det möjligt att ta fram många slags uppgifter och man kan också se vilka källor som har använts, berättar Kaius Sinnemäki.

– I språkkatalogerna, t.ex. Glottolog och Ethnologue, hittar man metauppgifter om språken: var de talas, uppgifter om språkens genealogi och språksläktskap. Också i språkkatalogerna finns källangivelser, ofta med en länk om leder direkt till den ursprungliga källan. Ibland måste man ändå gå till biblioteket om man vill få tag på litteraturen.

Alldeles problemfritt är det inte att göra språkjämförelser med hjälp av digitala material, eftersom språken kan ha olika namn och koder i olika databaser. Databaserna har inte heller alltid samma kriterier när de skiljer mellan språk och dialekt.

– Också parallella texter, alltså när samma text finns översatt till ett annat språk, är en växande källa för språktypologin. Till exempel Nya Testamentet finns översatt till över 1 000 språk.

Statistikens metoder

När Kaius Sinnemäki påbörjade arbetet med sin doktorsavhandling i allmän språkvetenskap, var hans kunskaper i statistisk metod på samma nivå som efter grundkursen i statistik. Det kom han inte långt med när han som forskarstuderande skulle göra ett vetenskapligt relevant urval av språk som var så oberoende av varandra som möjligt.

– Jag använde ungefär ett år till att studera statistiska metoder, bearbetning av och statistik för databaser. Mest som självstudier, jag läste böcker och på nätet. Mina handledare var också till stor hjälp. Efter många försök och misstag blev slutligen metoderna min styrka. Tiden som jag använde för metodstudierna var inte bortkastad.

– I dag undervisar jag t.ex. i användningen av R-programmeringsmiljön som passar utmärkt för manipulering av material och statistiska tester.

Universalier i teckenspråk

I sitt senaste språktypologiska forskningsprojekt tar Kaius Sinnemäki med teckenspråk.

– Teckenspråken finns sällan med i de språktypologiska undersökningarna. Det är möjligt att tendenser i språken som vi anser vara ”universalier” i större grad är tendenser i talat språk än ett allmänt språkligt drag. När man vill lösa den frågan är teckenspråkets roll av stor betydelse.

Forskningen i teckenspråk har ökat under de senaste 15 åren, och t.ex. vid Jyväskylä universitet har man gjort språkteknologiska analyser av teckenspråk. I samarbete med bl.a. forskarna i Jyväskylä kommer Sinnemäkis forskningsprojekt att producera databasmaterial om tal- och teckenspråk, och senare kommer materialet att vara öppet tillgängligt.

– Mitt i alla digitala material och metoder måste man komma ihåg att forskningen måste utgå från en teoretiskt motiverad fråga. I den här forskningen baserar jag mina frågeställningar på språktypologins tradition och påståenden som man inte tidigare har varit i stånd att undersöka med stora språkmaterial.

Digital Humanities -vetenskapstema

Följ och delta: #HelsinkiDH
Aktiviteter: ThinkWall