Ihmisarvioijat automaattisen arvioinnin äärellä

DigiTala-projektin tutkijat analysoivat uudessa tutkimuksessaan ihmisarvioijien näkemyksiä ja kokemuksia digitaalisesti toteutetusta arviointiprosessista. Tutkimuksen mukaan suurin osa arvioijista oli tyytyväisiä arvioinnissa käytettyihin ohjelmiin sekä itse arviointiprosessiin.

Etäopetus, kielten harjoittelu internetissä ja digitaaliset kielikokeet ovat nykyaikaa. Tästä huolimatta täysin automaattiset suullisen kielitaidon kokeet ovat yhä harvinaisia. DigiTala-projektin tutkijat analysoivat tutkimuksessaan ihmisarvioijien näkemyksiä ja kokemuksia digitaalisesti toteutetusta arviointiprosessista. Lisäksi tutkittiin, kattaako DigiTalan suunnittelema puhumisen arviointi keskeiset puheen ulottuvuudet. Osana tutkimusta järjestettiin kolme arviointikierrosta talven 2020 ja kesän 2021 välillä. Näihin osallistui yhteensä 37 arvioijaa, joilla oli aiempaa kokemusta kielitaidon arvioinnista mm. yleisistä kielitutkinnoista (YKI) tai ylioppilastutkinnosta.

Tutkimuksen arviointikriteerit laadittiin vastaamaan lukion opetussuunnitelman tavoitteita. Tuottamistehtävissä arvioitiin analyyttisia ulottuvuuksia sekä määritettiin puhenäytteille taitotaso, ääneenlukutehtävissä arvioitiin sujuvuutta sekä ääntämistä.

Selkeä arviointiprosessi

Kyselyn perusteella suurin osa arvioijista koki arviointiin saamansa ohjeistuksen selkeäksi. Arvioijat saivat koulutuksen Zoom-alustalla. Analyyttiset kriteerit olivat uusia osalle arvioijista, mikä hidastutti arviointia.

Arvioinnit kerättiin Moodle-alustalla, jota kaikki arvioijat eivät olleet aiemmin käyttäneet. Pääasiallisesti Moodle oli helppo alusta, mutta epäkohtiakin löytyi. Erityisen hyödylliseksi koettiin Moodle-tentin navigointinäkymä, joka helpotti äänitteiden välillä liikkumista.

Haasteita ja mahdollisuuksia digitaalisessa arvioinnissa

Enemmistö arvioijista suhtautui automaattiseen arviointiin positiivisesti tai neutraalisti. Automaattista arviointia pidettiin sopivana ihmisarvioinnin tueksi tai lisäksi. Arviointi nähtiin myös mahdollisuutena parantaa arvioinnin luotettavuutta. Automaattisen arvioinnin vahvuutena arvioijat pitivät reliaabeliutta ja käytettävyyttä.

Arvioinnin haasteet ja rajoitteet mietityttivät osaa arvioijista erityisesti. Osallistujat pohtivat esimerkiksi miten spontaania puhetta pystytään arvioimaan automaattisesti sekä miten erilaiset puhujat oli otettu huomioon (esimerkiksi murretaustaiset sekä persoonalliset tyylit).

Onnistumisia ulottuvuuksien määrittelyssä

Aineistoa kerättiin sekä lukiolaisilta että YKI-puhujilta. Palautteen mukaan pidempien YKI-puhujien näytteiden arviointi oli helpompaa kuin lyhyiden näytteiden. Haasteita tuotti erityisesti ruotsinoppijoiden puhenäytteiden lyhyys ja tehtävässä tarvittavan sanaston vaikea taso. Puheen sujuvuuden arviointi koettiin melko helpoksi, vaikka osalla arvioijista olisikin tarvinnut selkeämpiä ohjeita erilaisten kriteerien käyttöön puhesuorituksia arvioitaessa.

Puheen ulottuvuuksista arvioijat pitivät tärkeimpinä vuorovaikutusta, tehtävänannon täyttymistä, ilmaisun laajuutta sekä sujuvuuden arviointia. Vähiten tärkeinä pidettiin ääntämistä ja sanaston ja rakenteiden virheettömyyttä. Yleisesti ottaen tutkimusryhmän määrittelevät ulottuvuudet olivat samoja, joita myös arvioijat pitivät tärkeinä. Automaattinen arviointi ei kuitenkaan vielä sovellu esimerkiksi vuorovaikutuksen arvioimiseen.

 

Lue täältä lisää aiheesta: Koneellista arviointia opetetaan 18 ihmisarvioijan voimin