Yliopiston etusivulle Suomeksi På svenska In English
Helsingin yliopisto Helsingin yliopiston suomen kielen laitos
 

Suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos

Tietoa laitoksesta

Kaikki tiedot ovat laitoksen uusilla verkkosivuilla.
Google
  
laitoksen sivuilta

Toimistot

Sähköiset aineistot

Fennistiset atk-korpukset ovat kieliaineistoja: tekstejä tai litteroitua puhetta. Niistä voidaan mm. poimia halutunlaisia esimerkkejä tutkimusaineistoa varten erilaisilla etsintäkomennoilla sekä tehdä automaattisesti eräitä (yleensä vain yksinkertaisia) tilastollisia havaintoja korpusaineistosta.

Olemassa olevat korpukset edustavat nykykirjakieltä. Kotimaisten kielten tutkimuskeskuksen (Kotuksen) korpuksissa on lisäksi vanhaa kirjakieltä Agricolasta 1800-luvulle ja edelleen nykypäivään. Murreaineistoa on mm. Digitaalisessa muoto-opin arkistossa, Kotuksessa sekä Lauseopin arkistossa. Pääasiassa aineistot ovat koodittamattomia, joten niistä voi tehdä hakuja lähinnä merkkijonojen (sananpätkien yms.) perusteella. Jonkin verran on myös kooditettuja aineistoja, joista voi hakea myös sanaluokan, -muodon tms. perusteella, mutta niiden käyttö on vastaavasti hankalampaa.

Ohessa on kuvattu tavallisimmat suomen kielen tutkijalle hyödylliset sähköiset korpukset. Lisätietoa sähköisistä tutkimusaineistoista saa atk-suunnittelija Tatiana Stepanovalta (Tatjana.Stepanova[AT]helsinki.fi).

HUOM! Tutkimuksessa käytettyyn aineistoon pitää aina viitata. Tämä koskee sekä avoimesta verkosta että nk. suljetusta (= käyttöluvan takana olevasta) korpuksesta saatua tutkimusaineistoa. Korpusten omissa käyttöehdoissa yleensä kerrotaan tarkemmin, miten ko. aineistoon pitää viitata.

Tällä sivulla on kerrottu seuraavista korpuksista:

Kotimaisten kielten tutkimuskeskuksen eli Kotuksen sähköiset aineistot

Kotimaisten kielten tutkimuskeskuksella on paljon vanhan kirjasuomen aineistoa (1500-luvulta n. vuoteen 1810), varhaisnykysuomen aineistoa (v. 1809–1899), nykysuomen aineistoa, murre- ja jonkin verran nimiaineistoa. Kotuksen korpukset ovat pääasiassa koodittamattomia tekstikorpuksia, joista voi tehdä vain merkkijonohakuja (esim. hakea sanoja tai sanapareja). Hakuja ei siis voi tehdä kieliopillisten kategorioiden perusteella.

Suuri osa Kotuksen sähköisestä tutkimusaineistosta on julkaistu avoimessa verkossa Kotuksen aineistopalvelussa Kainossa (http://kaino.kotus.fi/). Kaino sisältää mm. suomenkielisiä tekstejä 1500-luvulta 1900-luvun alkuun, saamen sanojen etymologisen tietokannan ja nykysuomen sanalistan. Aineistoa voi selailla tai siitä voi tehdä erilaisia sanahakuja hakulomakkeella.

Kainossa julkaistun tutkimusaineiston käyttöön ei vaadita käyttölupaa; muut Kotuksen sähköiset tutkimusaineistot ovat käyttöluvan takana. Käyttölupalomakkeen saa Kotuksen www-sivuilta.

Osa Kotuksen aineistoista - muut kuin Kainossa julkaistut aineistot - ovat Unix-pohjaisia ja vaativat Unixin käyttötaitoja. Lisätietoa saa atk-suunnittelija Tanja Stepanovalta (Tatjana.Stepanova[AT]helsinki.fi). Jotain tietoa Unix-pohjaisista korpuksista on myös Unix-pohjaisten aineistojen käyttö -sivulla.

Osa Kotuksen tietokonemuotoisista korpuksista (mm. Suomen kielen tekstipankki ja Oulun korpus) on käytettävissä myös Kielipankin kautta (ks. Kielipankista alempana).

Lisätietoa Kotuksen sähköisistä ja muista tutkimusaineistoista on Kotuksen ja Kainon www-sivuilla.

Kielipankki

Kielipankki on opetusministeriön omistaman CSC – Tieteellinen laskenta Oy:n ylläpitämä palvelu. Kielipankki sisältää erikielistä (mm. suomi, englanti, ranska, ruotsi) ja erityyppistä (kirjoitettua kieltä, puhuttua kieltä) aineistoa sekä aineiston käsittelyyn tarvittavia ohjelmia.

Kielipankin aineistoihin sisältyy mm.

  • Suomen kielen tekstipankki (sanomalehtiaineistoa, aikakauslehtiaineistoa, kaunokirjallisuutta)
  • Digitaalinen muoto-opin arkisto (morfologisesti luokiteltu tietopankki suomen murteista, ks. lisätietoa jäljempänä)
  • Suomalainen radio- ja TV-korpus
  • Oulun korpus (1960-luvun suomen yleiskielen sähköinen tutkimusmateriaali)
  • jotain muuta pientä.

Osa aineistosta (Suomen kielen tekstipankki ja Digitaalinen muoto-opin arkisto) on käytettävissä www-käyttöliittymän kautta ja osa (mm. Oulun korpus) Unixin kautta (ks. Unix-pohjaisista aineistoista tarkemmin sivulla Unix-pohjaisten aineistojen käyttö). Suomen kielen tekstipankin aineistosta voi sanahakujen lisäksi tehdä hakuja esim. sanaluokan, -muodon tm. kieliopillisen kategorian perusteella.

Kielipankin aineistojen käyttö vaatii käyttöluvan. Käyttölupalomake on saatavissa Kielipankin verkkosivuilta. Laitoksen Kielipankki-yhdyshenkilö on Tatiana Stepanovalta (Tatjana.Stepanova[AT]helsinki.fi).

Lisätietoa Kielipankin aineistoista on Kielipankin verkkosivuilla.

Digitaalinen muoto-opin arkisto (DMA)

Digitaalinen muoto-opin arkisto (DMA) on morfologisesti luokiteltu tietopankki suomen murteista. Se pohjautuu paperimuotoiseen Muoto-opin arkistoon, mutta aineistoa on täydennetty joiltakin osin. Digitaalinen muoto-opin arkisto kootiin Suomen Akatemian rahoittaman Electronic Morphology Archives for Finnish Dialects -tutkimushankkeen puitteissa (1.11.2001–31.1.2005).

Digitaalisen muoto-opin arkiston sisältämät lause-esimerkit ovat poimintoja kielenoppaiden spontaanista puheesta. Lause-esimerkit kuvaavat muoto-opillisia ilmiöitä esiintymiskontekstissaan. Tammikuussa 2005 DMA:ssa oli n. 140 000 digitoitua lause-esimerkkiä, ja aineistoa kartutetaan edelleen.

Digitaalinen muoto-opin arkisto on käytettävissä Kielipankin kautta (ks. ylempänä). DMA:n käyttöön vaaditaan käyttölupa; käyttölupalomake on Kielipankin verkkosivuilla.

Yleisen kielitieteen laitoksen sähköiset aineistot

Yleisen kielitieteen laitos ylläpitää tekstiaineistoja eri kielillä suomesta somaliin ja quechuasta jiddišiin.

Suomenkielisiin aineistoihin sisältyy mm.:

  • Suomen kielen käänteissanakirja
  • Suomen Kuvalehden tekstejä
  • WSOY:n ja Otavan julkaisemia kirjoja kokonaisuudessaan
  • Helsingin puhekielen korpus
  • ns. HKV-korpus (materiaali on kuvattu julkaisussa Auli Hakulinen – Fred Karlsson – Maria Vilkuna 1980: Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications, No.6. Department of General Linguistics, University of Helsinki
  • jne.

Yleisen kielitieteen laitoksen korpukset ovat koodittamattomia tekstikorpuksia, joita käytetään Unix-ympäristössä (ks. tarkemmin sivulla Unix-pohjaisten aineistojen käyttö). Aineistot vaativat käyttöluvan.

Lisätietoa saa yleisen kielitieteen laitoksen www-sivuilta. Huom! Vuoden 2007 alusta yleisen kielitieteen laitoksen sähköiset aineistot siirtyvät CSC-Kielipankin palvelimelle (ks. Kielipankista ylempänä).

Lauseopin arkisto

Lauseopin arkisto on Turun yliopiston suomen kielen oppiaineen ylläpitämä tekstikorpus. Lauseopin arkisto sisältää:

  • murreaineistoa (1800-luvun loppu – 1900-luvun alku)
  • yleiskielen aineistoa (1970-luvun loppu ja 1980-luvun alku; mm. hallintokieltä, sanomalehti- ja aikakauslehtikieltä, kauno- ja tietokirjallisuuden kieltä.

Aineisto on morfologisesti ja syntaktisesti koodattu, ja sitä voidaan hyödyntää sekä lauseopillisissa että muoto- ja tekstiopillisissa tutkimuksissa.

Tällä hetkellä Lauseopin arkiston aineisto on käytettävissä Unix-pohjaisessä käyttöliittymässä, mutta www-käyttöliittymä on kehitteillä.

Aineiston käyttö vaatii käyttöluvan.

Lisätietoa on osoitteessa http://www.hum.utu.fi/suomi/arkistot/.

Muuta sähköistä aineistoa

Muusta sähköisestä tutkimusaineistosta on kerrottu monisteessa, joka on osoitteessa http://www.helsinki.fi/hum/skl/ssu/tvt_opinnot/korpukset_verkkoon.pdf.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Viiva

Suomen kieli

Tutkimus

Opinnäytteet

Tutkimusaineistot