I Språkbanken: Therese Lindström Tiedemann

Therese Lindström Tiedemann berättar om sin forskning om svenska som andraspråk. Det finns ett klart behov av att fortsätta utveckla finlandssvenska korpusar för att säkerställa att kommande studier inte bara tar sverigesvenska i beaktande utan också inkluderar finlandssvenska.

Vem är du?

Jag heter Therese Lindström Tiedemann och jag är universitetslektor i svenska språket vid Helsingfors universitet. Förutom svenska språket intresserar jag mig också för allmän lingvistik. Min doktorsavhandling skrev jag om grammatikaliseringens historia som språkvetenskapligt koncept, dvs inom språkvetenskapens historia.

Vad är ditt forskningsområde?

De senaste åren har jag mest forskat om svenska som andraspråk och i min forskning använder jag mig mycket av korpuslingvistiska metoder. Dessutom har jag tillsammans med kollegor också testat att använda mig av crowdsourcing. Jag forskar också om andra ämnen såsom grammatikalisering, språkvetenskapens historia, grammatikdidaktik och metaspråklig kunskap.

Hur är din forskning relaterad till Språkbanken i Finland?

Det är främst i koppling till min forskning inom svenska som andraspråk och i samband med undervisning som jag kommit att använda mig av Språkbankens (Finland) resurser. Jag har bland annat använt mig av den svenska delen av Topling-korpusen, och för närvarande leder jag vår fakultets del av Digisvenska-projektet där vi skapar en korpus över texter från de digitala studentskrivningarna i medellång svenska för att kunna studera hur de digitala studentskrivningarna samspelar med läroplanen och rättvisan och transparensen i provresultaten. Vi kommer bland annat att studera hur den språkliga bredden i form av den lexikala variationen relaterar till poäng och vitsord i proven, men också verbböjningen och satsadverbialen samt den språkliga exaktheten i form av normenligheten.

Tidigare har jag gjort försök att studera ordet ’nog’ med hjälp av Sinebrychoffkorpusen tillsammans med Jan Lindström, men i slutänden behövde arbetet göras främst med en mer omfattande textversion av korpusen och inte genom den version som finns i Korp.

Svenskspråkiga resurser i Finland behöver utvecklas

Jag har också ett mer allmänt intresse för vilka svenskspråkiga resurser som finns tillgängliga i Språkbanken (Finland) eftersom jag själv forskar om svenska och undervisar studenter i nordiska språk och gör mycket utifrån korpusbaserade metoder. Det gör det viktigt att veta vad jag kan rekommendera att studerande kan göra med hjälp av korpusar. Det finns absolut ett behov av att fortsätta utveckla finlandssvenska korpusar för att se till att vi kan beskriva finlandssvenska på liknande sätt som vi kan sverigesvenska, och så att kommande studier inte bara tar sverigesvenska i beaktande utan också inkluderar finlandssvenska. I den finländska kontexten kan vi också se att det i vissa korpusar finns såväl finska som svenska och att det finns behov av att fundera på hur man på bästa sätt skulle kunna studera hur och när svenska används i dessa korpusar och om det här är representativt för hur svenska används i dessa kontexter i Finland. Det här gäller t.ex. korpusen över riksdagens plenarsessioner (Eduskunnan täysistunnot), där svenska ord i nuläget bara taggas som utländska ord vilket gör att forskningsmöjligheterna på den delen av datan försvåras. Men samtidigt gör detta att vi tydligt kan se att svenska ord toppar och dominerar listan över de ord som taggats som utländska ord i plenarsessionerna. Men det vore intressant att fundera över hur man skulle kunna hantera dessa delar som svenskspråkiga, samt om det på något vis kunde vara möjligt annotera svenskspråkiga delar som svenska och på så vis göra det lättare att studera dem utifrån ett svenskspråkigt perspektiv.

I koppling till mitt intresse för de svenskspråkiga resurserna har jag också ett intresse för interoperabilitet mellan olika korpusar och resurser, transparens för forskningsdata och jämförbarhet mellan olika källor för det svenska språket. Eftersom väldigt många korpusar för det svenska språket finns vid Språkbanken Text (Sverige) och vi har ett behov av att kunna jämföra med dessa så ser jag ett behov av information om hur jämförbara korpusarna är, om korpusar här på Språkbanken (Finland) har annoterats på samma vis osv. Det här är av vikt för att se till att finlandssvenska och svenska inlärningskorpusar som finns här i Finland ska kunna jämföras med de korpusar som finns i Sverige och på så vis ge finlandssvenska och andraspråkssvenska (L2-svenska) med finska som förstaspråk (L1) en tydlig och rättvis plats i forskning om svenska och L2-svenska i allmänhet.

Som del av mitt arbete med korpusar har jag tillsammans med kollegor också intresserat mig för att kontrollera hur väl den automatiska annoteringen fungerar, speciellt på material skrivet av andraspråksinlärare. Vi har kontrollerat annoteringen av kursbokstexter (skrivna av L1-talare men ämnade för, eller utvalda för, L2-inlärare), texter skrivna av L2-inlärare och texter skrivna av L2-talare som sedan ”normaliserats” (dvs. standardiserats i form av t.ex. stavning) för att underlätta annotering, sökningar och jämförelser. Resultaten visade att texter skrivna av inlärare ofta är något sämre annoterade men inte alltid. Lemmatisering, ordklasstaggning och betydelsedisambiguering visade sig fungera så pass bra att de kan användas i studier också av L2-svenska, även om betydelsedisambigueringen var mer problematisk. Det fanns större problem med dependensanalys (jfr satsanalys), samt även flerordsenheter visade sig vara problematiska speciellt i inlärartexter. Flerordsannoteringen var dock så pass bra ändå att vi drog slutsatsen att den var bra nog som grund för vårt arbete, men man bör vara medveten om att några kan missas och att flerordsannoteringen bygger på vilka flerordsenheter som finns i Saldo, samt hur de har beskrivits i Saldo. Det visade sig nämligen kunna variera huruvida det sågs som att en preposition var del av flerordsenheten eller inte.

När språkforskare använder sig av korpusar för att studera språkbruk, historiska förändringar eller inlärares språkutveckling så är det ytterst viktigt att det finns tydlig information om hur korpusen har samlats in och vilken metadata som finns tillgänglig. Jag har därför också intresserat mig för hur metadata om korpusar förvaras och kopplas till korpusar så att användare kan hitta information som kan vara av vikt för att t.ex. veta hur pass jämförbara data ur olika korpusar är och hur representativ en viss korpus kan anses vara. Det här är en viktig del av arbetet med att göra data inte bara tillgängligt men också vetenskapligt användbart. Finns det inte tillräckligt med information om korpusen så kan det vara att språkforskare inte kan använda den för att de kommer att kritiseras för att de inte kan beskriva urvalet de arbetat med. För ett pluricentriskt språk som svenska är det väldigt viktigt att data som samlas in i de olika länderna där språket talas är jämförbara och när man använder sig av korpusar innebär det här också att det är viktigt att veta hur datan har behandlats och annoterats.

Jag är väldigt glad att vi fått fler svenska korpusar i Språkbanken (Finland) under de senaste åren. Jag hoppas att det i framtiden ska komma ännu fler finlandssvenska korpusar i Språkbanken och att de ska annoteras såsom de svenska korpusarna vid Språkbanken Text (Sverige) och att information om datan ska ges så att studerande och forskare relativt enkelt kan hitta jämförelsebart material samt veta hur representativt materialet är för en viss typ av språk (t.ex. en dialekt, tidningsspråk).

Nyligen avslutade projekt och några framtida steg

Under de kommande åren ska jag arbeta på ett projekt om pseudonymisering av språkliga data (Mormor Karl är 27 år). Pseudonymisering innebär att man ändrar uppgifter såsom namn på personer, platser osv. till pseudonymer i datan, när uppgifterna är sådana att de riskerar att avslöja vem som skrivit texten. Inom projektet kommer vi att studera hur pseudonymisering påverkar lingvistiska data i form av läsbarhet och bedömning för att bidra till bättre möjligheter till pseudonymisering men också bättre kunskap om hur pseudonymisering påverkar forskningsdata inom humaniora vilket är ett viktigt led i att arbeta för öppna data som kan återanvändas så att resultat kan reproduceras och uppföljningsstudier kan göras på data som redan finns insamlade samtidigt som man skydda människors identitet.

I koppling till det projekt som jag precis har avslutat tillsammans med Elena Volodina, Göteborg (L2 profiler – Utveckling av lexikala och grammatiska kompetenser i invandrarsvenska) har vi släppt ett dataset med manuella morfologiska analyser av lexem som ingår i material riktade mot inlärare av svenska som andraspråk eller producerade av personer med svenska som andraspråk (CoDeRooMor). Den här resursen har nu uppdaterats en del och kommer att släppas som del av resursen Svenska L2-profiler under 2023. Svenska L2-profiler är en resurs där man kan söka på t.ex. ord, tempus, morfem eller ordbildningsmönster för att se hur dessa förekommer på olika färdighetsnivåer (enligt CEFR, Common European Framework of Reference for languages) i så väl kursböcker för svenska som andraspråk som inlärartexter på olika CEFR-nivåer. De resurser som vi skapat finns dock vid Språkbanken Text (Sverige), men är eller ska bli öppet tillgängliga.

Under åren har jag också varit involverad i utvecklingen av ett verktyg för annotering i koppling till forskning om svenska (Legato) och Lärka-plattformens användning för undervisning om satsdelar, ordklasser och semantiska roller. CALL-plattformen Lärka har jag använt i min egen grammatikundervisning och på så vis kunnat återkoppla kring till utvecklarna. Tillsammans med Volodina har jag också använt plattformen till att samla in anonyma data om vad studerande ofta gör rätt och fel när de övar på dessa kategorier, vilket kan användas till forskning om metaspråklig kunskap och förmåga att analysera svenska språket grammatiskt.

Förutom hur min forskning kopplar till Språkbankens resurser och intresseområden är jag också projektledare för Finland Swedish Online (FSO), en onlinekurs i finlandssvenska som skapats på Helsingfors universitet utifrån en isländsk modell (Icelandic Online). FSO ingår numera i SAFMORIL som är ett av CLARIN:s K-Centrum. Min förhoppning har varit att FSO inte bara skulle vara ett sätt att stöjda andras språkinlärning men också en möjlighet att studera språkinlärning genom att se om det kunde vara möjligt att följa inlärares utveckling i deras användning av FSO om de gav tillstånd till detta. (Inom Icelandic Online har forskning kring språkinlärning gjorts utifrån deras data.)

Referenser

Alfter, D., Borin, L., Pilán, I., Lindström Tiedemann, T. & Volodina, E. 2019a. Lärka: From Language learning platform to infrastructure for research and language learning. I: Selected papers from the CLARIN Annual Conference 2018. Linköping: Linköping university press. 14s.

Alfter, D., Lindström Tiedemann, T. & Volodina, E. 2019b. LEGATO: A flexible lexicographic annotation tool. I: Hartmann, M. & Plank, B. (red.), The 22nd Nordic Conference on Computational Linguistics (NoDaLiDa): Proceedings of the conference. Linköping: Linköping University Electronic Press. s. 382–388.

Alfter, D., Lindström Tiedemann, T. & Volodina, E. 2021. Crowdsourcing Relative Rankings of Multi-Word Expressions: Experts vs Non-Experts. Northern European Journal of Language Technology, 7 (1): 35s.

Arnbjörnsdóttir, B., Friðriksdóttir, K., & Bédi, B. 2020. Icelandic Online: twenty years of development, evaluation, and expansion of an LMOOC. CALL for widening participation: short papers from EUROCALL 2020, 13.

Borin, L., Forsberg, M. & Lönngren, L. 2013. SALDO: a touch of yin to WordNet’s yang. Language Resources and Evaluation, 47(4): 1191–1211.

Council of Europe. 2001. Common European Framework of Reference for Languages: Learning, teaching and assessment.

Council of Europe. 2018. Common European Framework of Reference for Languages: Learning, teaching and assessment. Companion Volume with new descriptors.

Council of Europe. 2020. Common European Framework of Reference for Languages: Learning, teaching and assessment. Companion volume.

Friðriksdóttir, K. 2021. The effect of tutor-specific and other motivational factors on student retention on Icelandic Online. Computer Assisted Language Learning, 34(5-6), 663-684.

Lenardič, J., Lindström Tiedemann, T. & Fišer, D. 2018. Overview of L2 corpora and resources. CLARIN report. CLARIN ERIC.

Lindström, J. & Lindström Tiedemann, T. 2020. ”Ni minnes nog hvilka jag menar”: Subjektiva och intersubjektiva aspekter av modaladverbet nog. I: Lehti-Eklund, H. & Silén, B. (red.), Handel med konst. Språk och dialog i Paul Sinebrychoffs brevsamling från sekelskiftet 1900. Helsingfors: Svenska litteratursällskapet. s. 293–323.

Lindström, J. & Lindström Tiedemann, T. 2018. Subjektivt och intersubjektivt nog: Om grammatikalisering och bruk i ljuset av Paul Sinebrychoffs brevväxling kring 1900. I: Lönnroth, H, Haagensen, B., Kvist, M. & Sandvad West, K. (red.) Studier i svensk språkhistoria 14. Vasa: Vasa universitet. s. 180–197.

Lindström [Tiedemann], T. 2004. The History of the Concept of Grammaticalisation. Opubliserad doktorsavhandling, University of Sheffield.

Lindström Tiedemann, T., Alfter, D. & Volodina, E. 2022. CEFR-nivåer och svenska flerordsuttryck. I: Björklund, S., Haagensen, B., Nordman, M. & Westerlund, A. (red.), Svenskan i Finland 19. Vasa: Svensk-österbottniska samfundet. s. 218–233.

Lindström Tiedemann, T., Lenardič, J. & Fišer, D. 2018. L2 learner corpus survey: towards improved verifiability, reproducability and inspiration in learner corpus research. CLARIN annual conference, Pisa.

Lindström Tiedemann, T., Volodina, E. & Jansson, H. 2016. Lärka – ett verktyg för träning av språkterminologi och grammatik. LexicoNordica, 23: 161–181.

Prentice, J., Håkansson, C, Lindström Tiedemann, T., Pilán, I. & Volodina, E. 2021. Language learning and teaching with Swedish FrameNet++: two examples. I: Dannélls, D., Borin, L. & Friberg Heppin, K. (red.), The Swedish FrameNet++: Harmonization, integration, method development and practical language technology applications. Amsterdam: Benjamins. s. 303–329.

Stemle, E. W., Boyd, A., Jansen, M., Lindström Tiedemann, T., Mikelić Preradović, N., Rosen, A., Rosén, D. & Volodina, E. 2019. Working together towards an ideal infrastructure for language learner corpora. I: Abel, A., Glaznieks, A., Lyding, V. & Nicolas, L. (red.) Widening the Scope of Learner Corpus Research: Selected papers from the fourth leaner corpus research conference. Louvain-la-Neuve: Presses universitaires de Louvain.

Volodina, E., Alfter, D., Lindström Tiedemann, T., Lauriala, M.S. & Piipponen, D. H. 2022. Reliability of Automatic Linguistic Annotation: Native vs Non-native Texts. I: Monachini, M. & Eskevich, M. (red.), Selected papers from the CLARIN Annual Conference 2021. Linköping: Linköping University Electronic Press. s. 151–167.

Volodina, E., Mohammed, Y. A. & Lindström Tiedemann, T. 2021. CoDeRooMor: A new dataset for non-inflectional morphology studies of Swedish. Proceedings of the 23rd Nordic conference on computational linguistics (NoDaLiDa). Linköping. s. 178–189.

Volodina, E. & Lindström Tiedemann, T. 2014. Evaluating students’ metalinguistic knowledge with Lärka. Swedish Language Technology Conference, Uppsala.

Svenska språkresurser

Språkbanken i Finland (Kielipankki) samordnas av det nationella FIN-CLARIN-konsortiet som består av finländska universitet med CSC – IT Center for Science och Institutet för de inhemska språken (Kotus). FIN-CLARIN hjälper forskare i Finland att använda, förbättra, bevara och dela med sig av sina språkresurser. Språkbanken i Finland är en samling tjänster som tillhandahåller språkmaterial och verktyg för forskarsamfundet.