Suomen fonetiikkaa: Suomen kielen perussanakirjan äännetilasto
Koko aineisto kirjain/äänne-vastaavuuden
perusteella

Koko aineiston kvantiteettitilasto
Yhdyssanojen sananrajaisia nasaaliassimilaatioita ei ole merkitty. Lisäksi
karsitussa sanakirjaotoksessa esiintyi 48 vierassanaa, joissa esiintyi suhu-s
(
). Näitä ei ole merkitty tilastoon.

Suomen kielen perussanakirjan elektronisen version perusteella laadittu äännetilasto
(ks. sanaston valintaperiaatteet). Värilliset
pylväät = lyhyt kvantiteetti (sika; mato), valkoiset pylväät
= pitkä kvantiteetti (siika; matto). Tilastoinnissa pitkä kvantiteetti
ilmaistiin suuraakkosen (esim.tt = T; matto = maTo) merkillä. Nasaaliassimilaatiot
merkittiin myös yhdyssanojen osien rajoilla (aallon+murtaja =
aallommurtaja). Näin syntyneitä kahden konsonantin jonoja (-mm-)
ei kuitenkaan tilastoitu pitkän kvantiteetin tilastoihin. Pitkän kvantiteetin
tilastot: ks. Kvantiteettitilastojen vertailu.
Tilasto sanan ensimmäisen äänteen useudesta
Tilasto on laadittu sanamateriaalista,jossa kvantiteetti on merkitty
(esim.tt = T; matto = maTo; aamu = Amu). Tilastosta voi siten nähdä
esimerkiksi, kuinka usein sana alkaa pitkällä vokaalilla. Ks.viiden
ensimmäisen äänteen tilasto.
Huomautuksia tilastoista

Tilasto sanan kahden ensimmäisen äänteen useudesta

Tilasto sanan kolmen ensimmäisen äänteen useudesta

Tilasto sanan neljän ensimmäisen äänteen
useudesta

Sivun alkuun
Tilasto sanan viiden ensimmäisen äänteen useudesta

Sivun alkuun
Sanojen pituustilasto

Sivun alkuun
Sanaston valintaperiaatteet
Suomen kielen perussanaston äännetilasto perustuu Kotimaisten
kielten tutkimuskeskuksen ylläpitämään Suomen
kielen perussanakirjan (SPSK) vuosina 1990-94 ilmestyneeseen sähköiseen
hakusanastoon. Se käsittää noin 100.000 sanaa. Yleiskielen äännetilaston laskemista
ja muuta tiedon hakua varten muodostettiin kaksi karsittua sanastoa, jolloin
kokonaissanamääräksi tuli runsaat 90.000 sanaa. Tutkittavan sanaston laadinta
tehtiin seuraavin periaattein:
- Päätavoitteena oli saada aikaan sanasto, joka kuvaa puhuttua yleiskieltä
siten, että oikeinkirjoitus vastaa tietyin varauksin normatiivista ääntämistä.
Näin ollen vierassanat, joissa on <c, q, w, z, x, å>, sivuutettiin,
samoin sanat, joissa oikeinkirjoitus ei muutoin vastaa ääntämistä.
Erisnimet poistettiin, koska niitä ei SPSK:ssa ole systemaattisesti muutenkaan
esillä. Periaatteet esitellään yksityiskohtaisemmin alempana.
- Nasaaliassimilaatioiden käsittelyssä on erotettava sanansisäiset
ja sananrajaiset tapaukset. Muodostettiin sanasto, jossa sanansisäiset
assimilaatiot <nk> = {
k}
ja <ng> = {
}
(penger, sittenkin) tai <ng> = {
}
(singlaus, pingviini, gangsteri) merkittiin. Merkinnässä
käytettiin isoja kirjaimia: <nk> = Nk, <ng> = NN tai <ng>
= N. Jäljelle jääneet sananrajaiset potentiaaliset assimilaatiot
(kuun+kierto, kuun+pimennys, kuun+maisema, puhelin+gallup) jätettiin
merkitsemättä, koska huolitellussa artikulaatiossa sananloppuinen
<n> voidaan ääntää. Kvantiteetti ja diftongit jäivät
oikeinkirjoitusasuun. Ensimmäinen tilastoesitys koskee tätä
sanastoa.
- Muodostettiin toinen, foneettisempi sanasto, jossa sananrajaiset assimilaatiot
on merkitty (<-n+k-> = -Nk-, <-n+p-> = -mp-, <-n+m-> = -mm-,
<-n+g-> = -Ng-) ja jossa pitkä kvantiteetti on erikseen merkitty
tilastointia varten (pika/piika = pika/pIka; mato/matto
= mato/maTo). Assimilaation tuloksena syntynyttä mm-tapausta (kuun+maisema)
ei pidetty pitkänä kvantiteettina, jonka merkintä oli siis
M. Pitkä alveolaarinen nasaali (kunnas) merkittiin eri tavoin
kuin velaarinasaali (kangas).
Sanaston karsinnassa kiinnitettiin huomiota seuraaviin tapauksiin:
- POISTETTIIN lyhenteet (pH, PR, WC) ja lyhenteitä sisältävät
sanat (au-lapsi, T-risteys).
- SÄILYTETTIIN interjektiot (hihhei, huh, tse, tyyt). Sanat phui
ja phyi poistettiin, koska niissä <h> ei kuvasta todellisuudessa
[h]-äännettä vaan suomelle muutoin vierasta aspiraatiota).
- POISTETTIIN vierassanat, joissa ääntäminen poikkeaa oikeinkirjoituksesta
(drakhma, doping, diesel, know-how, loafer, non-food, nougat, rhesus, thai).
- SÄILYTETTIIN sanat, joissa esiintyy <b, d, f, g>.
- SÄILYTETTIIN seuraavin periaattein sanat, joissa lainanantajakielessä
esiintyy suhu-s [
]. SPSK:n painetussa
versiossa (1993) voidaan erottaa neljä ryhmää: sana on mukautettu
suomeen (plyysi, saali), annettu kahdessa eri muodossa (samaani,
Samaani; shakki, Sakki; serri, sherry), kirjoitettu alkukielellä
(sherry) tai käyttäen hatullista s-merkkiä (
aahi,
eikki, rik
a).
SPS:n elektronisessa listassa hattu-
ilmenee
muodossa <š>. Tilastointia varten merkinnät <sh>
ja <š> muutettiin merkiksi <S>.
- SÄILYTETTIIN muutoin vierassanat. Niihin suhtauduttiin tolerantisti,
koska niitä kuitenkin esiintyy yleiskielisessä puheessa runsaasti
(koeffisientti, kimbri, klaffi, largo, knesset, kreisi, kvasaari, lafka,
nonparelli, riboflaviini, jopa okei).
- SÄILYTETTIIN yhdyssanat seuraavin varauksin:
- MUODOSTETTIIN ERILLINEN TIEDOSTO yhdyssanoista, joissa esiintyy yhdysosan
rajan kummallakin puolella sama vokaali (ulko-ovi, urheilu-uutinen,
levy-yhtiö, maa-aateli).
- POISTETTIIN muut yhdyssanat, joissa esiintyy väliviiva (oikein-merkki,
eläköön-huuto).
- SÄILYTETTIIN yhdyssanojen loppuosaksi käsitettävät
sanat, joissa optionaalista osaa ilmaistaan SPK:ssa <->-merkillä
(-kätinen), mutta väliviiva poistettiin.
- SÄILYTETTIIN hakusanat, joissa optionaalista loppuosaa ilmaistaan
väliviivalla, mikäli sana edusti yksin ko. muotoa (nykyis-)
mutta POISTETTIIN, jos jäljelle jäi yhdyssanoja, joissa muoto
esiintyy (sisä-).
- SÄILYTETTIIN muut yhdyssanat. Nasaaliassimilaatiot otettiin huomioon
edellä kuvatulla tavalla. Väliviiva <-> POISTETTIIN.
- SÄILYTETTIIN muita kuin perusmuotoja edustavat (leksikaalistuneet)
sanat. Mikään sanakirja ei liene puhtaasti vain perusmuotoja sisältävä,
vaan morfologiaa sisältyy siihen piilevästi leksikaalistuneiden
sanojen (syrjälleen, nojalla, laossa, pikaa) ja yhdyssanojen osien
taipumisen (vuodenaika) vuoksi.
- SÄILYTETTIIN puhekieliset sanat (näkkäri, pläsi,
iskä, mä, toi, tää). Niiden karsiminen olisi edellyttänyt
hyvin suurta työmäärää.
- SÄILYTETTIIN erikoiskielten sanat (saippo), lastenkieliset,
vanhentuneet ja harvinaiset sanat.
- POISTETTIIN isolla kirjaimella alkavat nimet (Maija, Koraani, Raamattu).
- SÄILYTETTIIN HEITTOMERKILLISET SANAT. Pienen erikoisryhmän muodostavat
sellaiset sanat, joihin sisältyy heittomerkki (joka on SPSK:n elektronisessa
listassa merkitty <'>) ja joissa äänteellisesti kyseessä
on hiatus (raa'asti) tai loppuheitto (jok'ainoa). Koska ne ovat
foneettisesti kiintoisia, ne säilytettiin ja <'> korvattiin
merkillä <|> (ASCII 124).
- POISTETTIIN sanat, jotka sisältävät muita erikoismerkkejä
(<é>, <è>, <î>, <ê>).