Tietoa laitoksestaKaikki tiedot ovat laitoksen uusilla verkkosivuilla.Toimistot |
Sähköiset aineistotFennistiset atk-korpukset ovat kieliaineistoja: tekstejä tai litteroitua puhetta. Niistä voidaan mm. poimia halutunlaisia esimerkkejä tutkimusaineistoa varten erilaisilla etsintäkomennoilla sekä tehdä automaattisesti eräitä (yleensä vain yksinkertaisia) tilastollisia havaintoja korpusaineistosta. Olemassa olevat korpukset edustavat nykykirjakieltä. Kotimaisten kielten tutkimuskeskuksen (Kotuksen) korpuksissa on lisäksi vanhaa kirjakieltä Agricolasta 1800-luvulle ja edelleen nykypäivään. Murreaineistoa on mm. Digitaalisessa muoto-opin arkistossa, Kotuksessa sekä Lauseopin arkistossa. Pääasiassa aineistot ovat koodittamattomia, joten niistä voi tehdä hakuja lähinnä merkkijonojen (sananpätkien yms.) perusteella. Jonkin verran on myös kooditettuja aineistoja, joista voi hakea myös sanaluokan, -muodon tms. perusteella, mutta niiden käyttö on vastaavasti hankalampaa. Ohessa on kuvattu tavallisimmat suomen kielen tutkijalle hyödylliset sähköiset korpukset. Lisätietoa sähköisistä tutkimusaineistoista saa atk-suunnittelija Tatiana Stepanovalta (Tatjana.Stepanova[AT]helsinki.fi). HUOM! Tutkimuksessa käytettyyn aineistoon pitää aina viitata. Tämä koskee sekä avoimesta verkosta että nk. suljetusta (= käyttöluvan takana olevasta) korpuksesta saatua tutkimusaineistoa. Korpusten omissa käyttöehdoissa yleensä kerrotaan tarkemmin, miten ko. aineistoon pitää viitata. Tällä sivulla on kerrottu seuraavista korpuksista:
Kotimaisten kielten tutkimuskeskuksen eli Kotuksen sähköiset aineistotKotimaisten kielten tutkimuskeskuksella on paljon vanhan kirjasuomen aineistoa (1500-luvulta n. vuoteen 1810), varhaisnykysuomen aineistoa (v. 1809–1899), nykysuomen aineistoa, murre- ja jonkin verran nimiaineistoa. Kotuksen korpukset ovat pääasiassa koodittamattomia tekstikorpuksia, joista voi tehdä vain merkkijonohakuja (esim. hakea sanoja tai sanapareja). Hakuja ei siis voi tehdä kieliopillisten kategorioiden perusteella. Suuri osa Kotuksen sähköisestä tutkimusaineistosta on julkaistu avoimessa verkossa Kotuksen aineistopalvelussa Kainossa (http://kaino.kotus.fi/). Kaino sisältää mm. suomenkielisiä tekstejä 1500-luvulta 1900-luvun alkuun, saamen sanojen etymologisen tietokannan ja nykysuomen sanalistan. Aineistoa voi selailla tai siitä voi tehdä erilaisia sanahakuja hakulomakkeella. Kainossa julkaistun tutkimusaineiston käyttöön ei vaadita käyttölupaa; muut Kotuksen sähköiset tutkimusaineistot ovat käyttöluvan takana. Käyttölupalomakkeen saa Kotuksen www-sivuilta. Osa Kotuksen aineistoista - muut kuin Kainossa julkaistut aineistot - ovat Unix-pohjaisia ja vaativat Unixin käyttötaitoja. Lisätietoa saa atk-suunnittelija Tanja Stepanovalta (Tatjana.Stepanova[AT]helsinki.fi). Jotain tietoa Unix-pohjaisista korpuksista on myös Unix-pohjaisten aineistojen käyttö -sivulla. Osa Kotuksen tietokonemuotoisista korpuksista (mm. Suomen kielen tekstipankki ja Oulun korpus) on käytettävissä myös Kielipankin kautta (ks. Kielipankista alempana). Lisätietoa Kotuksen sähköisistä ja muista tutkimusaineistoista on Kotuksen ja Kainon www-sivuilla. KielipankkiKielipankki on opetusministeriön omistaman CSC – Tieteellinen laskenta Oy:n ylläpitämä palvelu. Kielipankki sisältää erikielistä (mm. suomi, englanti, ranska, ruotsi) ja erityyppistä (kirjoitettua kieltä, puhuttua kieltä) aineistoa sekä aineiston käsittelyyn tarvittavia ohjelmia. Kielipankin aineistoihin sisältyy mm.
Osa aineistosta (Suomen kielen tekstipankki ja Digitaalinen muoto-opin arkisto) on käytettävissä www-käyttöliittymän kautta ja osa (mm. Oulun korpus) Unixin kautta (ks. Unix-pohjaisista aineistoista tarkemmin sivulla Unix-pohjaisten aineistojen käyttö). Suomen kielen tekstipankin aineistosta voi sanahakujen lisäksi tehdä hakuja esim. sanaluokan, -muodon tm. kieliopillisen kategorian perusteella. Kielipankin aineistojen käyttö vaatii käyttöluvan. Käyttölupalomake on saatavissa Kielipankin verkkosivuilta. Laitoksen Kielipankki-yhdyshenkilö on Tatiana Stepanovalta (Tatjana.Stepanova[AT]helsinki.fi). Lisätietoa Kielipankin aineistoista on Kielipankin verkkosivuilla. Digitaalinen muoto-opin arkisto (DMA)Digitaalinen muoto-opin arkisto (DMA) on morfologisesti luokiteltu tietopankki suomen murteista. Se pohjautuu paperimuotoiseen Muoto-opin arkistoon, mutta aineistoa on täydennetty joiltakin osin. Digitaalinen muoto-opin arkisto kootiin Suomen Akatemian rahoittaman Electronic Morphology Archives for Finnish Dialects -tutkimushankkeen puitteissa (1.11.2001–31.1.2005). Digitaalisen muoto-opin arkiston sisältämät lause-esimerkit ovat poimintoja kielenoppaiden spontaanista puheesta. Lause-esimerkit kuvaavat muoto-opillisia ilmiöitä esiintymiskontekstissaan. Tammikuussa 2005 DMA:ssa oli n. 140 000 digitoitua lause-esimerkkiä, ja aineistoa kartutetaan edelleen. Digitaalinen muoto-opin arkisto on käytettävissä Kielipankin kautta (ks. ylempänä). DMA:n käyttöön vaaditaan käyttölupa; käyttölupalomake on Kielipankin verkkosivuilla. Yleisen kielitieteen laitoksen sähköiset aineistotYleisen kielitieteen laitos ylläpitää tekstiaineistoja eri kielillä suomesta somaliin ja quechuasta jiddišiin. Suomenkielisiin aineistoihin sisältyy mm.:
Yleisen kielitieteen laitoksen korpukset ovat koodittamattomia tekstikorpuksia, joita käytetään Unix-ympäristössä (ks. tarkemmin sivulla Unix-pohjaisten aineistojen käyttö). Aineistot vaativat käyttöluvan. Lisätietoa saa yleisen kielitieteen laitoksen www-sivuilta. Huom! Vuoden 2007 alusta yleisen kielitieteen laitoksen sähköiset aineistot siirtyvät CSC-Kielipankin palvelimelle (ks. Kielipankista ylempänä). Lauseopin arkistoLauseopin arkisto on Turun yliopiston suomen kielen oppiaineen ylläpitämä tekstikorpus. Lauseopin arkisto sisältää:
Aineisto on morfologisesti ja syntaktisesti koodattu, ja sitä voidaan hyödyntää sekä lauseopillisissa että muoto- ja tekstiopillisissa tutkimuksissa. Tällä hetkellä Lauseopin arkiston aineisto on käytettävissä Unix-pohjaisessä käyttöliittymässä, mutta www-käyttöliittymä on kehitteillä. Aineiston käyttö vaatii käyttöluvan. Lisätietoa on osoitteessa http://www.hum.utu.fi/suomi/arkistot/. Muuta sähköistä aineistoa
Muusta sähköisestä tutkimusaineistosta on kerrottu monisteessa, joka on osoitteessa http://www.helsinki.fi/hum/skl/ssu/tvt_opinnot/korpukset_verkkoon.pdf.
|
Suomen kieliTutkimus
OpinnäytteetTutkimusaineistot
|