next up previous contents index
Aliluvut


4.2 Word - sana

Määritelmä ja käyttötarkoitus

Puheen yksikkö, jolla on itsenäinen merkitys ja joka voi esiintyä myös yksinään. Sanayksiköllä tarkoitetaan tässä itse asiassa kimppua yhteen saneeseen liittyviä piirteitä. Saneeseen liittyy ensisijaisesti sen lähes ortografinen litteraatti (ts. sama asu kuin foneettisen puhunnoksen kuvauksessa), mutta yksiköstä voidaan annotaatiossa mainita myös esimerkiksi fonologinen kuvaus, perusmuoto, morfologisia piirteitä, vastaava sananmuoto kirjoitetussa kielessä jne. Puh-editorissa nämä piirteet on kuitenkin määriteltävä erikseen.

Paikantaminen ja rajaaminen

Sanakerros on suositeltavaa nimikoida vasta foonikerroksen jälkeen ja mieluiten tavukerroksen annotoinnin yhteydessä. Puh-editorilla sanakerroksen pohja voidaan generoida myös jo annotoidusta puhunnoskerroksesta, mikäli tämä on jo olemassa. Tällöin muodostuu ns. kelluvia (floating, ks. s. 8) sanayksiköitä, joita ei ole kohdistettu oikeisiin aikaväleihin, vaan jaettu tasaisesti kyseisen puhunnoksen ajalle.

Sanakerroksen rajan ei tarvitse välttämättä aina osua yksiin äännetason rajan kanssa, mutta jokaisen sanarajan tulee osua yksiin jonkin tavurajan kanssa, mikäli tavutaso on annotoitu.

4.2.0.1 Geminaatta (kaksoiskonsonantti) sanarajalla

Jos suomenkielisessä puheessa sanarajalla esiintyy geminaatta (kaksoiskonsonantti), joka on selvästi seurausta alku- tai loppukahdennuksesta, koko konsonanttisegmentti merkitään kuuluvaksi vain yhteen sanaan. Jos suomenkielisessä puheessa sanarajalla esiintyy geminaatta (kaksoiskonsonantti), joka ei välttämättä johdu em. kahdennuksesta, sanaraja merkitään joko keskelle konsonanttiäännettä tai mahdollisuuksien mukaan jollakin akustisella kriteerillä perusteltuun kohtaan konsonanttisegmentin sisällä.

4.2.0.2 Pitkä vokaali sanarajalla

Jos suomenkielisessä puheessa sanarajalla esiintyy pitkä vokaaliäänne siten, että edellinen sana päättyy samaan vokaaliin jolla seuraava alkaa: Etsi ensin akustisia vihjeitä sanarajasta vokaalisegmentin keskeltä. Toisinaan sopivan sanarajakohdan voi löytää perustaajuusmuutosten tai äänenlaatumuutosten perusteella. Rajalla voi olla esim. narinaa, lievä puristussupistuma tai peräti glottaaliklusiili. Jos rajakohdan paikkeilla on narinainen "kuoppa", merkitse raja pisimmän äänihuuliperiodin jälkeen, juuri ennen kuin perustaajuus alkaa jälleen nousta. Tällainen rajakohta heijastuu usein myös vokaalin laatuun. Jos sanojen rajalla on glottaaliklusiili, glottaaliklusiilin sulkeumavaihe kuuluu edelliseen sanaan ja sen jälkeinen "laukeama" seuraavaan sanaan. Jos glottaaliklusiili on erittäin pitkä ja sanarajalla tuntuu olevan esim. epäröintiä, älä merkitse glottaaliklusiilin sulkeumaa kumpaankaan sanaan kuuluvaksi, vaan jätä se kokonaan sanojen ulkopuolelle. Huom. Glottaaliklusiilin sulkeuma kuuluu kuitenkin puhunnokseen, sillä se on selvästi puhujan tuottama artikulaatio! Jos mitään akustisia vihjeitä ei löydy, merkitse sanaraja keskelle vokaalisegmenttiä.

4.2.0.3 Puhunnoksenloppuiset/-alkuiset saneet

Jos puhunnos päättyy soinnittomaan vaiheeseen ja viimeisen sanan lopussa on [h]-mainen äänne, tämä merkitään kuuluvaksi puhunnokseen, muttei viimeiseen saneeseen. Siihen saakka kun [h]-äänne on selvästi viimeisen saneen viimeisen vokaalin värinen ("soinniton vokaali"), se kuuluu myös saneeseen. Tällaisessa tapauksessa äänne segmentoidaan myös osaksi puhunnoksen viimeistä vokaalisegmenttiä, mutta segmentin soinniton osa merkitään äänenlaatutasolle soinnittomaksi.

Riippuvuudet muista yksiköistä

Puhunnos, fooniyksiköt ja tavut, mikäli ne ovat olemassa.

Kuvauksen valinta

Merkitään ainakin saneen lähes ortografinen litteraatti (ts. sama asu kuin foneettisen puhunnoksen kuvauksessa); mahdollisesti myös muita piirteitä. Sanarajat ylittäviä suomen ortografiassa näkymättömiä assimilaatioita (esim. pojam pallo) ei tarvitse merkitä, sillä ne voidaan todeta äännekerroksen annotaatiosta ja/tai tuottaa sääntöpohjaisesti. Keskeneräiseksi jääneen sanan loppuun merkitään tavuviiva -.

Jollet käytä annotaatiossa Puh-editoria, merkitse kaikki sanayksikköön liittyvät piirteet omiin kerroksiinsa. Esimerkiksi Praat-ohjelmalla rajataan saneet yhteen IntervalTier-tyyppiseen kerrokseen ja kirjoitetaan näiden nimikkeiksi saneen litteraatti. Sen jälkeen luodaan PointTier-tyyppinen kerros esimerkiksi sanan perusmuodolle, ja lisätään tähän kerrokseen yksi ankkuri (point) jokaisen saneen keskivaiheille. Ankkureiden nimikkeiksi annetaan sitten ko. saneen perusmuoto ortografisessa asussaan.

Sanalle ei ole määritelty valmiiksi esimerkiksi ominaisuutta 'sanaluokka', sillä ominaisuudet periytyvät kaikille yksikön aliyksiköille ja eri tutkijoiden käsitykset sanaluokkien määrästä ja merkityksestä vaihtelevat (esim. 15 vs. erilaisten automaattisten morfologisten analyysityökalujen käyttämät luokitukset). Mikäli sanaluokan annotointi on tarpeen, kannattaa luoda Puh-editorissa sanayksikölle uusi aliyksikkö, jolle määritellään sanaluokka-ominaisuus ja tälle puolestaan lista haluttuja luokkanimikkeitä.


next up previous contents index
: 4.3 Syllable - tavu : 4. Lingvistiset yksiköt : 4.1 Phoneme - foneemi   Sisältö   Hakemisto
Mietta Lennes 2005-05-11